モデル順位表の弱点は、モデルではなく問題側にあるかもしれない。新しいarXiv論文は、評価タスクの25.7%以上に重大な問題を見つけ、欠陥タスクを除くとSWE-bench Verifiedの平均性能が9.9%動くと報告した。
#benchmarks
RSS Feed重要なのは、順位上昇がより安い学習コストとセットで出てきたことだ。BaiduはERNIE 5.1 PreviewがLMArena Textで世界13位、中国ラボ首位に入り、事前学習コストは同規模比較で約6%だと書いた。
LocalLLaMAがこの投稿に反応した理由は宣伝文句ではなく実測値だ。RTX 5060 Ti 16GBを2枚使い、Qwen3.6 27Bを約60 tok/s、204kコンテキストまで持ち上げた構成が共有された。
LocalLLaMAが熱くなった理由は絶対値の点数だけではない。2026年4月28日のこの投稿は、Qwen 3.6-27BのTerminal-Bench 2.0での38.2%をlate-2025 frontier相当と結びつけ、ローカルコーディングを導入判断の土俵に乗せた。
重要なのは、発売時の宣伝ではなく外部コミュニティ評価でGPT-5.5の立ち位置が見えたことだ。Arenaによれば、GPT-5.5はSearch Arenaで2位、Expert Arenaで5位、Code Arenaで9位に入り、コード分野ではGPT-5.4から50ポイント伸びた。
LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。
画像モデルは文字やレイアウトで崩れやすく、その弱点に手を入れた点が重要だ。Qwenは新モデルを世界9位のText-to-Image評価と結び付け、多言語タイポグラフィの改善も前面に出した。
なぜ重要か。最先端のコーディングモデルでは公開ベンチマークだけでは体感差が見えにくくなっているからだ。CursorはGPT-5.5が自社評価のCursorBenchで72.8%の首位に立ち、5月2日まで価格を50%下げると書いた。
新しいベンチマーク歓迎の声と同時に、HNはすぐ一発勝負の採点でコーディングモデルを測れるのかへ議論を移した。
重要なのは、model launchの成否がweightsだけでなくservingとtrainingの支援に左右されることだ。LMSYSはDay-0 stackでB200 199 tok/s、H200 266 tok/sを示し、900K contextでも落ち込みが小さいと書いた。
xAIが狙うのは会話デモではなく実務向け音声エージェントだ。Grok Voice Think Fast 1.0はτ-voice Bench首位を掲げ、25言語超に対応し、Starlink運用では販売転換率20%、サポート解決率70%を出したとしている。
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。