Arena採点のGPT-5.5 Search 2位、Code Arenaは50点上昇
Original: Arena puts GPT-5.5 at #2 in search and +50 in Code Arena View original →
4月27日のArena.aiのX投稿は、OpenAIが4月23日にGPT-5.5を投入してから最初期に出た、まとまった外部スコアカードの1つだ。ここが重要だ。リリース投稿はラボが見せたい強みを語るが、コミュニティ評価は競合比較の中でモデルがどこに着地したかを教えてくれる。
“Code Arena: #9, a strong +50pt jump over GPT-5.4 … Search Arena: #2 … Expert Arena: #5.”
Arenaは旧LMArenaの流れを汲む評価コミュニティで、テキスト、検索、ビジョン、コーディングの順位を横断的に追っている。この投稿が役に立つのは、単一の見栄えのいい指標ではないからだ。GPT-5.5はDocument Arenaで6位、Text Arenaで7位、Mathで3位、Instruction Followingで8位、Visionで5位、Searchで2位。全体として幅広く改善しているが、登場した瞬間に全カテゴリを制圧したわけではない、という姿が見える。
最も読み解きが必要なのはコーディングの数字だ。Code Arena 9位だけを見ると地味だが、投稿はGPT-5.4比で50ポイント上昇したと書いている。この評価はエージェント型のWeb開発タスクを扱うため、順位そのものより世代間の伸び幅が重要になる。一方でExpert Arena 5位という結果は、雑談向けの印象よりも、難しい実務プロンプトでの底力を示している。
次に見るべきは、サンプルが増えたあともこの位置を保てるか、そして高い推論設定でコーディング順位がさらに上がるかだ。現時点の結論は単純だ。「GPT-5.5が全部勝った」ではない。コーディングと検索を中心に、かなりバランスよく前進したアップデートだということだ。
Related Articles
r/MachineLearningで注目されたのは、閉じたモデルの評価結果をleaderboardにどう混ぜるかという現実的な問題だった。
Codexは短時間の支援ツールから、ノートPCを閉じても進む企業向けエージェントへ軸足を移す。OpenAIは週次利用者が500万人超、年初比400%増とし、Onaの200万開発者向けクラウド環境を取り込む狙いを示した。
OpenAIが前に出したのは単なる性能更新ではない。Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を示しつつ、GPT-5.4級のレイテンシーを保つとして、長い作業を任せるコーディングエージェントの基準を押し上げた。