Arena採点のGPT-5.5 Search 2位、Code Arenaは50点上昇
Original: Arena puts GPT-5.5 at #2 in search and +50 in Code Arena View original →
4月27日のArena.aiのX投稿は、OpenAIが4月23日にGPT-5.5を投入してから最初期に出た、まとまった外部スコアカードの1つだ。ここが重要だ。リリース投稿はラボが見せたい強みを語るが、コミュニティ評価は競合比較の中でモデルがどこに着地したかを教えてくれる。
“Code Arena: #9, a strong +50pt jump over GPT-5.4 … Search Arena: #2 … Expert Arena: #5.”
Arenaは旧LMArenaの流れを汲む評価コミュニティで、テキスト、検索、ビジョン、コーディングの順位を横断的に追っている。この投稿が役に立つのは、単一の見栄えのいい指標ではないからだ。GPT-5.5はDocument Arenaで6位、Text Arenaで7位、Mathで3位、Instruction Followingで8位、Visionで5位、Searchで2位。全体として幅広く改善しているが、登場した瞬間に全カテゴリを制圧したわけではない、という姿が見える。
最も読み解きが必要なのはコーディングの数字だ。Code Arena 9位だけを見ると地味だが、投稿はGPT-5.4比で50ポイント上昇したと書いている。この評価はエージェント型のWeb開発タスクを扱うため、順位そのものより世代間の伸び幅が重要になる。一方でExpert Arena 5位という結果は、雑談向けの印象よりも、難しい実務プロンプトでの底力を示している。
次に見るべきは、サンプルが増えたあともこの位置を保てるか、そして高い推論設定でコーディング順位がさらに上がるかだ。現時点の結論は単純だ。「GPT-5.5が全部勝った」ではない。コーディングと検索を中心に、かなりバランスよく前進したアップデートだということだ。
Related Articles
HNはGPT-5.5を単なる新モデルとしてではなく、雑多なPC作業を本当に最後まで任せられるかの試金石として見た。話題の中心もベンチよりロールアウト、API時期、実運用でのコーディング性能だった。
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
OpenAIが前に出したのは単なる性能更新ではない。Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を示しつつ、GPT-5.4級のレイテンシーを保つとして、長い作業を任せるコーディングエージェントの基準を押し上げた。
Comments (0)
No comments yet. Be the first to comment!