Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した
Original: Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6 View original →
数字ひとつで火が付いた。LocalLLaMAで伸びた投稿は、Qwen3.6-27BがArtificial AnalysisのAgentic IndexでSonnet 4.6に並び、GPT-5.2、GPT-5.3、Gemini 3.1 Pro Preview、MiniMax 2.7も上回ったと主張した。このコミュニティで大事なのは順位表そのものではない。27B級モデルが、agent的な作業で最前線APIモデルにかなり近づいてきたという感触のほうだ。
コメント欄はその抽象的な点数をすぐ家庭用GPUの話に変えた。あるユーザーはRTX 3090と5070 TiでQ8版を170K context、FP16 KV cache付きで回せたと書き、別のユーザーは3090を2枚使い、speculative decoding込みでQ4が毎秒85トークンほど出ると報告した。ここが一番熱かった。単なるランキング画像ではなく、本当に手元の機材でどこまで行けるかの話へ直結したからだ。
同時に、ほとんど誰もベンチマークをそのまま信じてはいなかった。上位コメントのひとつは、この伸びのかなりの部分はbenchmaxxingかもしれないと率直に書いた。元の投稿もCoding Indexの構成に疑問を投げている。Terminal Bench HardとSciCodeだけでagentic coding全体を測るのは偏っているのではないか、という指摘だ。つまり反応は二つあった。小さなモデルが差を詰めたことへの興奮と、公開スコアはまだ多くを隠しているという警戒だ。
その二面性こそが、この投稿が広がった理由だ。LocalLLaMAはもはや巨大モデルの登場だけでは驚かない。小さめのモデルが経済性を動かし始めたときに強く反応する。コメントは点数の話から、価格、VRAM、スループット、そして122B版が出たらAPI事業者はどうなるかへすぐ飛んだ。要するに、このコミュニティはこれを単なるベンチマーク小話として読んでいない。ローカル推論が趣味の域を越え、現実の競争圧力になりつつある兆候として受け止めている。元の議論は r/LocalLLaMA にある。
Related Articles
r/LocalLLaMAが反応したのは具体的な数字だ。RTX 5070 Tiで128K context、79 t/s、その鍵がllama.cppのflagに絞られた。
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
r/LocalLLaMAで、CPUにoffloadした重みを先読みしてprompt処理速度の低下を抑えるllama.cpp実験が話題になった。長いcontextでのhybrid CPU/GPU推論のボトルネックを減らす狙いだ。
Comments (0)
No comments yet. Be the first to comment!