GPT-5.5、Artificial Analysisで3点差首位に復帰 実行コストは20%上振れへ
Original: Artificial Analysis said GPT-5.5 moved 3 points ahead on its Intelligence Index while raising benchmark cost about 20% View original →
tweetが示したこと
Artificial AnalysisはGPT-5.5の初期評価をかなり直截にまとめた。中心になる文は OpenAI’s new model tops the Artificial Analysis Intelligence Index by 3 points, breaking a three-way tie with Anthropic and Google. である。重要なのは、これが単なるreaction threadではないことだ。pre-release accessを得て、xhigh、high、medium、low、non-reasoningの5つのeffort levelを試したと書いている。
Artificial Analysis accountは、frontier modelのindependent evaluation、leaderboard movement、cost breakdownを継続的に出すチャネルだ。今回も同じ役割を果たしている。GPT-5.5が本当にquality frontierを動かしたのか、どのworkloadで強いのか、そしてその代償はいくらかを同時に示そうとしている。
benchmark threadが実際に述べたこと
postによれば、GPT-5.5 xhighはTerminal-Bench Hard、GDPval-AA、APEX-Agents-AAを含む5つのheadline evaluationで先頭に立つ。さらにtradeoffの数字も具体的だ。per-token pricingはGPT-5.4からinput 1Mあたり5ドル、output 1Mあたり30ドルへ上がったが、token useが約40%減ったため、Intelligence Index全体の実行コスト増は100%ではなく約20%に抑えられたという。
面白いのは、“number one”という見出しほど単純ではない点だ。GPT-5.5 xhighはAA-Omniscienceで57% accuracyと最上位だが、hallucination rateは86%とされる。比較としてClaude Opus 4.7 maxは36%、Gemini 3.1 Pro Previewは50%だ。またGPT-5.5 mediumはIntelligence IndexでClaude Opus 4.7 maxと同点ながら、コストは約1,200ドル対4,800ドル、つまり4分の1程度だと述べている。
次に見るべき点
次の論点は再現性である。Artificial Analysisは信頼度の高いbenchmarking shopだが、まだ一社の初期readにすぎない。GDPval-AAとAPEX-Agents-AAのmethodology開示、外部replication、そしてcapabilityの伸びとhallucination tradeoffが他でも同じように出るかが、次の判断材料になる。
Sources: X source tweet
Related Articles
LocalLLaMAの熱量は「modelが弱くなった」という不満だけでは終わらなかった。provider routing、quantization、peak-time behavior、silent downgradeをどう証明するかへ議論が広がった。証拠は未確定だが、不安ははっきり見える。
MM-WebAgentは、AI製webpageが部品単位では良くても全体で崩れる問題を狙う。階層型planning、self-reflection、benchmark、code/data公開により、code-onlyでは見えないmultimodal coherenceを測れるようにした。
HNの熱量は新model名より、adaptive thinking、tokenizer変更、safety filterが実務のagent workflowをどう揺らすかに向かった。Opus 4.7は期待と同時に、最近のClaude品質不信も背負って見られている。
Comments (0)
No comments yet. Be the first to comment!