GPT-5.5、Artificial Analysisで3点差首位に復帰 実行コストは20%上振れへ
Original: Artificial Analysis said GPT-5.5 moved 3 points ahead on its Intelligence Index while raising benchmark cost about 20% View original →
tweetが示したこと
Artificial AnalysisはGPT-5.5の初期評価をかなり直截にまとめた。中心になる文は OpenAI’s new model tops the Artificial Analysis Intelligence Index by 3 points, breaking a three-way tie with Anthropic and Google. である。重要なのは、これが単なるreaction threadではないことだ。pre-release accessを得て、xhigh、high、medium、low、non-reasoningの5つのeffort levelを試したと書いている。
Artificial Analysis accountは、frontier modelのindependent evaluation、leaderboard movement、cost breakdownを継続的に出すチャネルだ。今回も同じ役割を果たしている。GPT-5.5が本当にquality frontierを動かしたのか、どのworkloadで強いのか、そしてその代償はいくらかを同時に示そうとしている。
benchmark threadが実際に述べたこと
postによれば、GPT-5.5 xhighはTerminal-Bench Hard、GDPval-AA、APEX-Agents-AAを含む5つのheadline evaluationで先頭に立つ。さらにtradeoffの数字も具体的だ。per-token pricingはGPT-5.4からinput 1Mあたり5ドル、output 1Mあたり30ドルへ上がったが、token useが約40%減ったため、Intelligence Index全体の実行コスト増は100%ではなく約20%に抑えられたという。
面白いのは、“number one”という見出しほど単純ではない点だ。GPT-5.5 xhighはAA-Omniscienceで57% accuracyと最上位だが、hallucination rateは86%とされる。比較としてClaude Opus 4.7 maxは36%、Gemini 3.1 Pro Previewは50%だ。またGPT-5.5 mediumはIntelligence IndexでClaude Opus 4.7 maxと同点ながら、コストは約1,200ドル対4,800ドル、つまり4分の1程度だと述べている。
次に見るべき点
次の論点は再現性である。Artificial Analysisは信頼度の高いbenchmarking shopだが、まだ一社の初期readにすぎない。GDPval-AAとAPEX-Agents-AAのmethodology開示、外部replication、そしてcapabilityの伸びとhallucination tradeoffが他でも同じように出るかが、次の判断材料になる。
Sources: X source tweet
Related Articles
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
Show HNで注目された llm-circuit-finder は、training や weight changes なしで layer routing だけで reasoning を押し上げられると主張する。ただし README の全体 benchmark は IFEval/MBPP と平均値の悪化も示しており、これは universal improvement というより capability steering と見る方が妥当だ。
なぜ重要か。最先端のコーディングモデルでは公開ベンチマークだけでは体感差が見えにくくなっているからだ。CursorはGPT-5.5が自社評価のCursorBenchで72.8%の首位に立ち、5月2日まで価格を50%下げると書いた。