Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した

数字ひとつで火が付いた。LocalLLaMAで伸びた投稿は、Qwen3.6-27BがArtificial AnalysisのAgentic IndexでSonnet 4.6に並び、GPT-5.2、GPT-5.3、Gemini 3.1 Pro Preview、MiniMax 2.7も上回ったと主張した。このコミュニティで大事なのは順位表そのものではない。27B級モデルが、agent的な作業で最前線APIモデルにかなり近づいてきたという感触のほうだ。

コメント欄はその抽象的な点数をすぐ家庭用GPUの話に変えた。あるユーザーはRTX 3090と5070 TiでQ8版を170K context、FP16 KV cache付きで回せたと書き、別のユーザーは3090を2枚使い、speculative decoding込みでQ4が毎秒85トークンほど出ると報告した。ここが一番熱かった。単なるランキング画像ではなく、本当に手元の機材でどこまで行けるかの話へ直結したからだ。

同時に、ほとんど誰もベンチマークをそのまま信じてはいなかった。上位コメントのひとつは、この伸びのかなりの部分はbenchmaxxingかもしれないと率直に書いた。元の投稿もCoding Indexの構成に疑問を投げている。Terminal Bench HardとSciCodeだけでagentic coding全体を測るのは偏っているのではないか、という指摘だ。つまり反応は二つあった。小さなモデルが差を詰めたことへの興奮と、公開スコアはまだ多くを隠しているという警戒だ。

その二面性こそが、この投稿が広がった理由だ。LocalLLaMAはもはや巨大モデルの登場だけでは驚かない。小さめのモデルが経済性を動かし始めたときに強く反応する。コメントは点数の話から、価格、VRAM、スループット、そして122B版が出たらAPI事業者はどうなるかへすぐ飛んだ。要するに、このコミュニティはこれを単なるベンチマーク小話として読んでいない。ローカル推論が趣味の域を越え、現実の競争圧力になりつつある兆候として受け止めている。元の議論は r/LocalLLaMA にある。

Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した

Related Articles

Qwen3.6を79 t/sにした投稿で、LocalLLaMAの主役は--n-cpu-moeになった

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

LocalLLaMAで注目を集めた llama.cpp のCPU offload prefetch実験

Comments (0)

Leave a Comment

Related Articles

Qwen3.6を79 t/sにした投稿で、LocalLLaMAの主役は--n-cpu-moeになった
LLM Reddit Apr 19, 2026 1 min read

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価
LLM Reddit Apr 8, 2026 1 min read

LocalLLaMAで注目を集めた llama.cpp のCPU offload prefetch実験
LLM Reddit Mar 31, 2026 1 min read