LocalLLaMA가 Granite 4.1에 반응한 이유는 IBM이 요즘 유행과 반대로 갔기 때문이다. 3B·8B·30B dense 모델을 중심에 두고 instruction following과 tool calling, 운영 비용, 예측 가능한 동작을 전면에 세우자 “실서비스용 모델”로 읽는 반응이 나왔다.
#tool-calling
RSS FeedLocalLLaMA가 이 글을 반긴 이유는 'Gemma 4가 왠지 약하다'로 끝나지 않았기 때문이다. nullable JSON Schema가 빈 type 필드로 납작해지는 구체적 실패 지점을 잡아냈고, 작은 Jinja 수정으로 tool calling이 다시 살아났다.
r/LocalLLaMA의 100점대 thread는 local tool calling 실패담을 model 탓으로 끝내지 않고, OpenWebUI·quant·runtime 조합 문제로 쪼개 봤다.
약 350포인트를 받은 LocalLLaMA 글은 Gemma 4 26B A3B가 적절한 runtime 설정과 함께할 때 로컬 coding-agent·tool-calling 워크플로에서 유난히 강하게 느껴진다고 주장한다. 작성자는 다른 로컬 모델 스택에서 겪었던 prompt caching과 function calling 문제와 대비해 이를 설명했다.
Together AI는 2026년 3월 19일 자사 fine-tuning 서비스가 tool call, reasoning, vision-language workflow를 기본 지원한다고 밝혔다. 연결된 Together AI 블로그는 100B+ parameter 모델, 최대 100GB 데이터셋, 대형 MoE 모델에서 최대 6배 처리량, 학습 전 비용 추정과 실행 중 ETA 제공까지 포함된다고 설명한다.
Together AI는 2026년 3월 19일 fine-tuning 서비스가 tool calling, reasoning, vision-language model 학습을 지원하고 MoE 아키텍처에서 최대 6배 높은 처리량을 낸다고 밝혔다. 공식 글은 최대 1T 파라미터급 모델 지원 방향과 함께 100GB 데이터셋, 사전 비용 추정, 학습 중 ETA 제공을 설명한다.
LocalLLaMA의 인기 글은 Open WebUI의 Open Terminal을 조명한다. Docker 또는 bare metal 실행 계층을 통해 로컬 모델이 명령 실행, 파일 편집, 결과물 반환을 채팅 안에서 수행하게 한다.
r/LocalLLaMA 인기 기술 글은 2026년 2월 20일 병합된 llama.cpp PR #19765를 공유했다. 해당 변경은 Qwen3-Coder-Next 파싱 문제 대응용 stop-gap으로, parallel tool calling과 JSON schema 지원 보완을 포함한다.
llama.cpp에 Model Context Protocol(MCP) 지원이 추가되어 외부 도구 및 데이터 소스 연동이 가능해졌다. 1개월 이상의 개발 끝에 tool call, agentic loop, resource browsing 등 다양한 기능이 구현되었다.