Opus 4.8、GDPval-AAでGPT-5.5を121点上回る外部評価
Original: Opus 4.8 leads GPT-5.5 by 121 points on GDPval-AA benchmark View original →
Claude Opus 4.8の実力は、発売直後の評価で具体的な差として見え始めている。Artificial Analysisは、Opus 4.8がmax effort設定でGDPval-AAの1890点を記録し、次点のGPT-5.5 xhighを121点上回ったと投稿した。同じタスク集合で比較すると、head-to-headの勝率は約67%に相当するという。
投稿の要点は “1890 on GDPval-AA” と “+121 points ahead” だった。
元のポストでは、Anthropicが公開前にベンチマーク用アクセスを提供し、Artificial Analysis Intelligence Indexの全体結果はまだ作業中だとも説明している。Artificial Analysisは主要LLMの品質、速度、価格を横並びで測るアカウントとして知られ、ベンダー自身の説明だけでは見えにくい比較軸を提示してきた。
この結果はAnthropicのOpus 4.8リリース記事とも重なる。Anthropicは、Opus 4.8が判断力と自己検証を改善し、自分の書いたコードの欠陥を見逃す可能性がOpus 4.7より約4分の1になったと説明している。Claude Codeには長時間作業向けのdynamic workflows、claude.aiにはeffort control、APIにはタスク途中でsystem entriesを更新できる変更も加わった。
GDPval-AAは、狭いコード修正ではなく実際の業務型エージェント作業を測る点で意味がある。ただし、全体Indexが未公開である以上、速度、トークン消費、失敗時の回復まで含めて優位が続くかはまだ確認が必要だ。導入を検討するチームは、Opus 4.8、GPT-5.5、Opus 4.7を同じ社内タスクと同じ予算で比較し、数値が自分たちの作業に移るかを見るべき局面に入った。
Related Articles
AnthropicとKPMGは5月19日にグローバル戦略提携を発表した。KPMG全社員27万6,000人がDigital GatewayでClaudeにアクセスでき、税務・PE・サイバーセキュリティ領域から優先展開される。
HNでの関心は、モデル名そのものより、同価格での改善、安くなったfast mode、Claude Codeのdynamic workflowsが実作業で効くかに集まった。
DeepSWEは91リポジトリ横断の113課題で、コーディングエージェント評価をより長期作業寄りにした。初回結果はGPT-5.5が70.0%、Claude Opus 4.7が54.2%。
Comments (0)
No comments yet. Be the first to comment!