Qwen3.6-27B가 Sonnet 급까지 왔나, LocalLLaMA가 바로 따진 기준들

숫자 한 줄이면 충분했다. LocalLLaMA에서 화제가 된 글은 Qwen3.6-27B가 Artificial Analysis의 Agentic Index에서 Sonnet 4.6과 동률까지 올라왔고, GPT 5.2와 5.3, Gemini 3.1 Pro Preview, MiniMax 2.7도 앞질렀다고 주장했다. 이 커뮤니티에서 중요한 것은 순위표 한 장이 아니다. 27B급 모델이 agent 스타일 작업에서 프런티어 API 모델 행동에 근접한다는 감각이 훨씬 크게 작동했다.

댓글은 이 추상적 점수를 곧바로 집 안 장비 이야기로 번역했다. 한 사용자는 RTX 3090과 5070 Ti 조합에서 Q8 버전을 170K context, FP16 KV cache로 돌렸다고 했고, 다른 사용자는 3090 두 장에 speculative decoding을 얹어 Q4 기준 초당 85토큰 정도가 나온다고 적었다. 이 스레드가 뜨거웠던 이유도 여기에 있다. 리더보드 숫자보다, 실제 사람들이 가진 장비에서 어디까지 되는지가 곧바로 이어졌기 때문이다.

동시에 거의 아무도 벤치마크를 성서처럼 받들지는 않았다. 상위 댓글 하나는 이 상승폭의 적지 않은 부분이 benchmaxxing일 수 있다고 단언했다. 원글 역시 Coding Index 구성에 의문을 달았다. Terminal Bench Hard와 SciCode만으로 agentic coding 전반을 재는 건 이상하다는 문제제기다. 그래서 반응은 둘로 갈렸다. 작은 모델이 격차를 줄인다는 흥분, 그리고 공개 점수판이 여전히 많은 것을 감춘다는 의심이다.

바로 그 이중 반응이 이 글을 멀리 보냈다. LocalLLaMA는 이제 큰 모델 자체에 놀라지 않는다. 더 작은 모델이 경제성을 흔들 때 크게 반응한다. 댓글은 점수에서 곧바로 가격, VRAM, 처리량, 그리고 나중에 122B 버전이 나오면 API 사업자가 어떤 압박을 받을지로 넘어갔다. 이 커뮤니티는 이번 일을 단순 벤치마크 뉴스로 읽지 않았다. 로컬 추론이 취미 단계를 지나 실제 경쟁 압력으로 올라오는 또 하나의 신호로 읽었다. 원문 토론은 r/LocalLLaMA에 있다.

Qwen3.6-27B가 Sonnet 급까지 왔나, LocalLLaMA가 바로 따진 기준들

Related Articles

Qwen3.6 79 t/s 글에서 r/LocalLLaMA가 본 진짜 변수: --n-cpu-moe

Local tool calling 현실 점검: r/LocalLLaMA가 본 문제는 model보다 harness였다

모델들이 갑자기 둔해졌나? LocalLLaMA는 'silent downgrade' 감각을 검증 문제로 바꿨다

Comments (0)

Leave a Comment

Related Articles

Qwen3.6 79 t/s 글에서 r/LocalLLaMA가 본 진짜 변수: --n-cpu-moe
LLM Reddit Apr 19, 2026 1 min read

Local tool calling 현실 점검: r/LocalLLaMA가 본 문제는 model보다 harness였다
LLM Reddit Apr 19, 2026 1 min read

모델들이 갑자기 둔해졌나? LocalLLaMA는 'silent downgrade' 감각을 검증 문제로 바꿨다
LLM Reddit Apr 17, 2026 1 min read