Opus 4.8、GDPval-AAでGPT-5.5を121点上回る外部評価

Claude Opus 4.8の実力は、発売直後の評価で具体的な差として見え始めている。Artificial Analysisは、Opus 4.8がmax effort設定でGDPval-AAの1890点を記録し、次点のGPT-5.5 xhighを121点上回ったと投稿した。同じタスク集合で比較すると、head-to-headの勝率は約67%に相当するという。

投稿の要点は “1890 on GDPval-AA” と “+121 points ahead” だった。

元のポストでは、Anthropicが公開前にベンチマーク用アクセスを提供し、Artificial Analysis Intelligence Indexの全体結果はまだ作業中だとも説明している。Artificial Analysisは主要LLMの品質、速度、価格を横並びで測るアカウントとして知られ、ベンダー自身の説明だけでは見えにくい比較軸を提示してきた。

この結果はAnthropicのOpus 4.8リリース記事とも重なる。Anthropicは、Opus 4.8が判断力と自己検証を改善し、自分の書いたコードの欠陥を見逃す可能性がOpus 4.7より約4分の1になったと説明している。Claude Codeには長時間作業向けのdynamic workflows、claude.aiにはeffort control、APIにはタスク途中でsystem entriesを更新できる変更も加わった。

GDPval-AAは、狭いコード修正ではなく実際の業務型エージェント作業を測る点で意味がある。ただし、全体Indexが未公開である以上、速度、トークン消費、失敗時の回復まで含めて優位が続くかはまだ確認が必要だ。導入を検討するチームは、Opus 4.8、GPT-5.5、Opus 4.7を同じ社内タスクと同じ予算で比較し、数値が自分たちの作業に移るかを見るべき局面に入った。

Opus 4.8、GDPval-AAでGPT-5.5を121点上回る外部評価

Related Articles

Claude Fable 5、GDPval-AA 1932点でエージェント業務評価の首位へ

Claude Tag、Slackチャンネルをチーム共有のAI作業場に変える

Claude Sonnet 5、Opus級agent性能をFree/Pro標準へ