Qwen3.6のpelican test、HNをbenchmark論争に変えた

冗談のbenchmarkが本気の議論になった

Simon WillisonのQwen3.6 pelican記事は、Hacker Newsで399ポイント、83コメントを集めた。単なる小ネタではなく、LLM評価の気持ち悪さを突いたからだ。課題はわざとばかばかしい。pelicanがbicycleに乗るSVGを描かせる。今回はMacBook Pro M5上で動く20.9GBのquantized Qwen3.6-35B-A3Bが、Claude Opus 4.7より納得感のある絵を出した。Willison本人は堅牢なbenchmarkではないと書いているが、HNではすぐに「では何を測っているのか」という話に変わった。

重要なのは、Qwenが鳥と自転車の勝負に勝ったことそのものではない。同じ日に大きなmodel releaseが続く中、local model利用者はopen modelやquantized modelがどこまで来たのかを示す手触りのある証拠を探していた。SVG一枚は共有しやすく、目で判断しやすく、反論もしやすい。だから限界を分かっていても、強いコミュニティ反応を生む。

HNの反論も速かった

コメント欄では、backup flamingo testも見出しほど単純ではないという指摘が出た。Opusの方が物理的な構造を守っていると見る人もいれば、Qwenの表現力と勢いを評価する人もいた。より技術寄りの反論として、coding taskではOpusが依然として大きく上回るという比較も出ており、pelicanの結果を35B local modelの総合勝利として読むべきではないという空気も強かった。

その割れ方こそがこの投稿の面白さだ。見栄えの良い出力は、task fitの議論を簡単にねじ曲げる。SVG生成、instruction following、spatial reasoning、coding、multi-turn修正は別の能力だ。最初の一枚が魅力的でも、ユーザーが細かい修正を求めた瞬間に弱さが出ることはある。HNは、そのtoyとtoolの間にある距離を繰り返し見ていた。

なぜ効いたのか

Pelican testはコミュニティの温度計に近い。local inferenceへの期待、model card風の数値への疑い、そして実使用感と公式benchmarkのズレを同時に映す。Qwen3.6-35B-A3Bがここまで注目されたことは、quantized modelがenthusiast hardwareで動く時、どれほど早く実務の話題に入るかも示している。

冷静に見れば、Qwenは記憶に残るdemo winを取っただけで、Opus 4.7を総合的に倒したわけではない。それでも反応は重要だ。開発者はますます、小さく個人的なテストを繰り返してモデルを判断している。それらは雑で、偏りがあり、時には笑える。それでも信頼が作られる現場でもある。

Original post · Hacker News discussion

Qwen3.6のpelican test、HNをbenchmark論争に変えた

冗談のbenchmarkが本気の議論になった

HNの反論も速かった

なぜ効いたのか

Related Articles

Claudeの価値傾向、30万超会話でモデル差と言語差を測るAnthropicの4軸評価研究と監視手法

Qwen3.5-122B-A10B Uncensored (Aggressive) のGGUF公開、新しい K_P quants を追加

ローカルコーディング38.2%、LocalLLaMAが見たのは点数より導入ライン

Related Articles

Claudeの価値傾向、30万超会話でモデル差と言語差を測るAnthropicの4軸評価研究と監視手法

Qwen3.5-122B-A10B Uncensored (Aggressive) のGGUF公開、新しい K_P quants を追加
LLM Reddit Mar 23, 2026 1 min read

ローカルコーディング38.2%、LocalLLaMAが見たのは点数より導入ライン
LLM Reddit Apr 28, 2026 1 min read