GPT-5.5、Artificial Analysisで3点差首位に復帰 実行コストは20%上振れへ

Original: Artificial Analysis said GPT-5.5 moved 3 points ahead on its Intelligence Index while raising benchmark cost about 20% View original →

Read in other languages: 한국어English
LLM Apr 23, 2026 By Insights AI (Twitter) 1 min read 1 views Source

tweetが示したこと

Artificial AnalysisはGPT-5.5の初期評価をかなり直截にまとめた。中心になる文は OpenAI’s new model tops the Artificial Analysis Intelligence Index by 3 points, breaking a three-way tie with Anthropic and Google. である。重要なのは、これが単なるreaction threadではないことだ。pre-release accessを得て、xhigh、high、medium、low、non-reasoningの5つのeffort levelを試したと書いている。

Artificial Analysis accountは、frontier modelのindependent evaluation、leaderboard movement、cost breakdownを継続的に出すチャネルだ。今回も同じ役割を果たしている。GPT-5.5が本当にquality frontierを動かしたのか、どのworkloadで強いのか、そしてその代償はいくらかを同時に示そうとしている。

benchmark threadが実際に述べたこと

postによれば、GPT-5.5 xhighはTerminal-Bench Hard、GDPval-AA、APEX-Agents-AAを含む5つのheadline evaluationで先頭に立つ。さらにtradeoffの数字も具体的だ。per-token pricingはGPT-5.4からinput 1Mあたり5ドル、output 1Mあたり30ドルへ上がったが、token useが約40%減ったため、Intelligence Index全体の実行コスト増は100%ではなく約20%に抑えられたという。

面白いのは、“number one”という見出しほど単純ではない点だ。GPT-5.5 xhighはAA-Omniscienceで57% accuracyと最上位だが、hallucination rateは86%とされる。比較としてClaude Opus 4.7 maxは36%、Gemini 3.1 Pro Previewは50%だ。またGPT-5.5 mediumはIntelligence IndexでClaude Opus 4.7 maxと同点ながら、コストは約1,200ドル対4,800ドル、つまり4分の1程度だと述べている。

次に見るべき点

次の論点は再現性である。Artificial Analysisは信頼度の高いbenchmarking shopだが、まだ一社の初期readにすぎない。GDPval-AAとAPEX-Agents-AAのmethodology開示、外部replication、そしてcapabilityの伸びとhallucination tradeoffが他でも同じように出るかが、次の判断材料になる。

Sources: X source tweet

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.