GPT-5.5、Artificial Analysisで3点差首位に復帰　実行コストは20％上振れへ

tweetが示したこと

Artificial AnalysisはGPT-5.5の初期評価をかなり直截にまとめた。中心になる文は OpenAI’s new model tops the Artificial Analysis Intelligence Index by 3 points, breaking a three-way tie with Anthropic and Google. である。重要なのは、これが単なるreaction threadではないことだ。pre-release accessを得て、xhigh、high、medium、low、non-reasoningの5つのeffort levelを試したと書いている。

Artificial Analysis accountは、frontier modelのindependent evaluation、leaderboard movement、cost breakdownを継続的に出すチャネルだ。今回も同じ役割を果たしている。GPT-5.5が本当にquality frontierを動かしたのか、どのworkloadで強いのか、そしてその代償はいくらかを同時に示そうとしている。

benchmark threadが実際に述べたこと

postによれば、GPT-5.5 xhighはTerminal-Bench Hard、GDPval-AA、APEX-Agents-AAを含む5つのheadline evaluationで先頭に立つ。さらにtradeoffの数字も具体的だ。per-token pricingはGPT-5.4からinput 1Mあたり5ドル、output 1Mあたり30ドルへ上がったが、token useが約40％減ったため、Intelligence Index全体の実行コスト増は100％ではなく約20％に抑えられたという。

面白いのは、“number one”という見出しほど単純ではない点だ。GPT-5.5 xhighはAA-Omniscienceで57％ accuracyと最上位だが、hallucination rateは86％とされる。比較としてClaude Opus 4.7 maxは36％、Gemini 3.1 Pro Previewは50％だ。またGPT-5.5 mediumはIntelligence IndexでClaude Opus 4.7 maxと同点ながら、コストは約1,200ドル対4,800ドル、つまり4分の1程度だと述べている。

次に見るべき点

次の論点は再現性である。Artificial Analysisは信頼度の高いbenchmarking shopだが、まだ一社の初期readにすぎない。GDPval-AAとAPEX-Agents-AAのmethodology開示、外部replication、そしてcapabilityの伸びとhallucination tradeoffが他でも同じように出るかが、次の判断材料になる。

Sources: X source tweet

GPT-5.5、Artificial Analysisで3点差首位に復帰　実行コストは20％上振れへ

tweetが示したこと

benchmark threadが実際に述べたこと

次に見るべき点

Related Articles

Claude Opus 5、Fable級のcoding性能を半額圏に寄せる日常高性能モデルとroutingの狙い

Kimi K3、非公開サイバー評価でGPT-5.6に対する費用優位を示す

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料

Related Articles

Claude Opus 5、Fable級のcoding性能を半額圏に寄せる日常高性能モデルとroutingの狙い
高性能モデルの競争軸が、最高点だけでなく費用対効果へ移っている。Claude Opus 5はFable 5に近いcoding・知識作業性能を掲げ、API価格は入力$5/M・出力$25/M tokensに据え置かれた。

Kimi K3、非公開サイバー評価でGPT-5.6に対する費用優位を示す
LLM X/Twitter Jul 19, 2026 1 min read

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料
LLM Apr 26, 2026 1 min read