LocalLLaMA의 관심은 “Claude 대체”보다 tool call 오류율 12%라는 구체적 한계에 모였다.
#qwen
RSS FeedLocalLLaMA에서 Qwen3.6 35B A3B 모델이 업무 워크플로우를 바꿨다는 경험담이 화제입니다. Codex로 작업을 수행하고 과정을 스킬 문서로 기록해 pi 에이전트에 공급하는 방식으로 VPS 관리, PDF 변환 등을 자동화했습니다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
Alibaba Qwen 팀이 에이전트 중심 설계의 신모델 Qwen3.7-Max를 공개했다. Artificial Analysis 평가에서 GPT 5.4와 동급인 5위를 기록하며 오픈 웨이트 프론티어 모델의 새 기준을 제시했다.
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
로컬 LLM 연구자가 단일 RTX 3090에서 Qwen3.6-27B와 에이전틱 검색을 결합해 SimpleQA 벤치마크 95.7%를 달성했다.
LocalLLaMA 댓글은 토큰 속도보다 끝까지 굴러가는 결과물에 더 민감했다. 같은 MacBook Pro M5 Max에서 Qwen 3.6 27B는 더 길고 빠르게 썼지만, Gemma 4 31B는 훨씬 적은 토큰으로 게임 로직과 상호작용을 먼저 정리했다.
LocalLLaMA가 본 포인트는 최고 속도가 아니었다. RTX 3090 한 장으로 218K 문맥을 밀어 올리고 긴 tool output에서도 덜 무너지는 구성이 더 중요했다.
중요한 점은 장문맥과 edge-side agent가 말만 그럴듯한지, 실제로 돌릴 만한지의 갈림길이 결국 커널 최적화에 있다는 데 있다. Qwen는 FlashQLA가 NVIDIA Hopper에서 FLA Triton 대비 전방 2~3배, 역전파 2배 속도를 냈다고 적었다.
LocalLLaMA가 이 글에 반응한 이유는 홍보 문구가 아니라 숫자였다. RTX 5060 Ti 16GB 두 장으로 Qwen3.6 27B를 약 60 tok/s, 204k 컨텍스트까지 밀어본 실측값이 나왔다.
최상단 댓글은 CP 밈으로 바로 달려갔지만, 글이 오래 붙은 이유는 따로 있었다. GDN chunked prefill에서 forward 2~3배, backward 2배라는 구체적 수치가 long-context와 엣지 추론 얘기로 곧장 이어졌기 때문이다.