Qwen3.6のpelican test、HNをbenchmark論争に変えた
Original: Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7 View original →
冗談のbenchmarkが本気の議論になった
Simon WillisonのQwen3.6 pelican記事は、Hacker Newsで399ポイント、83コメントを集めた。単なる小ネタではなく、LLM評価の気持ち悪さを突いたからだ。課題はわざとばかばかしい。pelicanがbicycleに乗るSVGを描かせる。今回はMacBook Pro M5上で動く20.9GBのquantized Qwen3.6-35B-A3Bが、Claude Opus 4.7より納得感のある絵を出した。Willison本人は堅牢なbenchmarkではないと書いているが、HNではすぐに「では何を測っているのか」という話に変わった。
重要なのは、Qwenが鳥と自転車の勝負に勝ったことそのものではない。同じ日に大きなmodel releaseが続く中、local model利用者はopen modelやquantized modelがどこまで来たのかを示す手触りのある証拠を探していた。SVG一枚は共有しやすく、目で判断しやすく、反論もしやすい。だから限界を分かっていても、強いコミュニティ反応を生む。
HNの反論も速かった
コメント欄では、backup flamingo testも見出しほど単純ではないという指摘が出た。Opusの方が物理的な構造を守っていると見る人もいれば、Qwenの表現力と勢いを評価する人もいた。より技術寄りの反論として、coding taskではOpusが依然として大きく上回るという比較も出ており、pelicanの結果を35B local modelの総合勝利として読むべきではないという空気も強かった。
その割れ方こそがこの投稿の面白さだ。見栄えの良い出力は、task fitの議論を簡単にねじ曲げる。SVG生成、instruction following、spatial reasoning、coding、multi-turn修正は別の能力だ。最初の一枚が魅力的でも、ユーザーが細かい修正を求めた瞬間に弱さが出ることはある。HNは、そのtoyとtoolの間にある距離を繰り返し見ていた。
なぜ効いたのか
Pelican testはコミュニティの温度計に近い。local inferenceへの期待、model card風の数値への疑い、そして実使用感と公式benchmarkのズレを同時に映す。Qwen3.6-35B-A3Bがここまで注目されたことは、quantized modelがenthusiast hardwareで動く時、どれほど早く実務の話題に入るかも示している。
冷静に見れば、Qwenは記憶に残るdemo winを取っただけで、Opus 4.7を総合的に倒したわけではない。それでも反応は重要だ。開発者はますます、小さく個人的なテストを繰り返してモデルを判断している。それらは雑で、偏りがあり、時には笑える。それでも信頼が作られる現場でもある。
Related Articles
Claude Opus 4.8のfast modeは、同じモデルを約2.5倍速で動かす選択肢になった。Claude公式は、従来のfast modeより価格を3分の1に下げたと説明している。
Claude Opus 4.8の初期評価は、コーディングだけでなく実務型エージェント作業に広がっている。Artificial AnalysisはGDPval-AAで1890点、GPT-5.5 xhighを121点上回ったとした。
HNでの関心は、モデル名そのものより、同価格での改善、安くなったfast mode、Claude Codeのdynamic workflowsが実作業で効くかに集まった。
Comments (0)
No comments yet. Be the first to comment!