Qwen3.6-27B가 Sonnet 급까지 왔나, LocalLLaMA가 바로 따진 기준들
Original: Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6 View original →
숫자 한 줄이면 충분했다. LocalLLaMA에서 화제가 된 글은 Qwen3.6-27B가 Artificial Analysis의 Agentic Index에서 Sonnet 4.6과 동률까지 올라왔고, GPT 5.2와 5.3, Gemini 3.1 Pro Preview, MiniMax 2.7도 앞질렀다고 주장했다. 이 커뮤니티에서 중요한 것은 순위표 한 장이 아니다. 27B급 모델이 agent 스타일 작업에서 프런티어 API 모델 행동에 근접한다는 감각이 훨씬 크게 작동했다.
댓글은 이 추상적 점수를 곧바로 집 안 장비 이야기로 번역했다. 한 사용자는 RTX 3090과 5070 Ti 조합에서 Q8 버전을 170K context, FP16 KV cache로 돌렸다고 했고, 다른 사용자는 3090 두 장에 speculative decoding을 얹어 Q4 기준 초당 85토큰 정도가 나온다고 적었다. 이 스레드가 뜨거웠던 이유도 여기에 있다. 리더보드 숫자보다, 실제 사람들이 가진 장비에서 어디까지 되는지가 곧바로 이어졌기 때문이다.
동시에 거의 아무도 벤치마크를 성서처럼 받들지는 않았다. 상위 댓글 하나는 이 상승폭의 적지 않은 부분이 benchmaxxing일 수 있다고 단언했다. 원글 역시 Coding Index 구성에 의문을 달았다. Terminal Bench Hard와 SciCode만으로 agentic coding 전반을 재는 건 이상하다는 문제제기다. 그래서 반응은 둘로 갈렸다. 작은 모델이 격차를 줄인다는 흥분, 그리고 공개 점수판이 여전히 많은 것을 감춘다는 의심이다.
바로 그 이중 반응이 이 글을 멀리 보냈다. LocalLLaMA는 이제 큰 모델 자체에 놀라지 않는다. 더 작은 모델이 경제성을 흔들 때 크게 반응한다. 댓글은 점수에서 곧바로 가격, VRAM, 처리량, 그리고 나중에 122B 버전이 나오면 API 사업자가 어떤 압박을 받을지로 넘어갔다. 이 커뮤니티는 이번 일을 단순 벤치마크 뉴스로 읽지 않았다. 로컬 추론이 취미 단계를 지나 실제 경쟁 압력으로 올라오는 또 하나의 신호로 읽었다. 원문 토론은 r/LocalLLaMA에 있다.
Related Articles
r/LocalLLaMA가 이 글에 반응한 이유는 숫자가 구체적이었기 때문이다: RTX 5070 Ti에서 128K context와 79 t/s를 만든 핵심이 flag 하나로 좁혀졌다.
r/LocalLLaMA의 100점대 thread는 local tool calling 실패담을 model 탓으로 끝내지 않고, OpenWebUI·quant·runtime 조합 문제로 쪼개 봤다.
LocalLLaMA의 열기는 “모델이 멍청해졌다”는 불평에서 끝나지 않고, provider routing과 quantization, peak-time behavior를 어떻게 측정할지로 번졌다. thread는 확정 증거보다 community가 느끼는 품질 불안의 크기를 보여준다.
Comments (0)
No comments yet. Be the first to comment!