Arena採点のGPT-5.5　Search 2位、Code Arenaは50点上昇

4月27日のArena.aiのX投稿は、OpenAIが4月23日にGPT-5.5を投入してから最初期に出た、まとまった外部スコアカードの1つだ。ここが重要だ。リリース投稿はラボが見せたい強みを語るが、コミュニティ評価は競合比較の中でモデルがどこに着地したかを教えてくれる。

“Code Arena: #9, a strong +50pt jump over GPT-5.4 … Search Arena: #2 … Expert Arena: #5.”

Arenaは旧LMArenaの流れを汲む評価コミュニティで、テキスト、検索、ビジョン、コーディングの順位を横断的に追っている。この投稿が役に立つのは、単一の見栄えのいい指標ではないからだ。GPT-5.5はDocument Arenaで6位、Text Arenaで7位、Mathで3位、Instruction Followingで8位、Visionで5位、Searchで2位。全体として幅広く改善しているが、登場した瞬間に全カテゴリを制圧したわけではない、という姿が見える。

最も読み解きが必要なのはコーディングの数字だ。Code Arena 9位だけを見ると地味だが、投稿はGPT-5.4比で50ポイント上昇したと書いている。この評価はエージェント型のWeb開発タスクを扱うため、順位そのものより世代間の伸び幅が重要になる。一方でExpert Arena 5位という結果は、雑談向けの印象よりも、難しい実務プロンプトでの底力を示している。

次に見るべきは、サンプルが増えたあともこの位置を保てるか、そして高い推論設定でコーディング順位がさらに上がるかだ。現時点の結論は単純だ。「GPT-5.5が全部勝った」ではない。コーディングと検索を中心に、かなりバランスよく前進したアップデートだということだ。

Arena採点のGPT-5.5　Search 2位、Code Arenaは50点上昇

Related Articles

Arena、1,000万件のモデル投票を年換算$100M事業へ

GPT-5.6、ChatGPT・Codex・API投入と80.0 coding agent指標

GPT-5.6 Sol、DeepSWE 72.7%でAI投資の物差しを「完了タスク単価」へ

Related Articles

Arena、1,000万件のモデル投票を年換算$100M事業へ
LLM Jun 30, 2026 1 min read

GPT-5.6、ChatGPT・Codex・API投入と80.0 coding agent指標
LLM X/Twitter Jul 10, 2026 1 min read

GPT-5.6 Sol、DeepSWE 72.7%でAI投資の物差しを「完了タスク単価」へ
LLM Jul 18, 2026 1 min read