Claude Fable 5、GDPval-AA 1932点でエージェント業務評価の首位へ
Original: Claude Fable 5 reaches 1932 on GDPval-AA and takes agent benchmark lead View original →
1932点が示すFable 5の位置
Claude Fable 5は、単なる新モデルの話題から、外部ベンチマークで測れる競争へ移った。Artificial AnalysisはXで、同モデルが"scores 1932 on GDPval-AA"と記し、エージェント型の実世界ナレッジワーク評価で首位に立ったと説明した。元の投稿はこちらで読める。
重要なのは、GDPval-AAが短い会話応答ではなく、複数段階の専門作業を想定した評価だという点だ。Artificial Analysisによると、Anthropicは公開前アクセスを提供し、評価では最大努力の適応型推論とClaude Opus 4.8へのフォールバック設定が使われた。Fable 5はGDPval-AAタスクの2%でOpus 4.8へ回り、Anthropicが示す平均セッション比率の5%未満という説明とも整合する。
このフォールバックは製品設計の中心にある。Anthropicの公式資料では、Fable 5は一般提供向けに安全化されたMythos級モデルとされる。サイバーセキュリティ、生物学、化学、蒸留に関わる一部の要求はOpus 4.8へ送られる一方、同社はコーディング、知識労働、視覚、科学研究で過去の一般提供Claudeを上回ると説明している。価格は入力100万トークン10ドル、出力100万トークン50ドルで、安全監視のため30日間のデータ保持が求められる。
次に見るべき点は、この首位が実際の開発、調査、企業ワークフローでどこまで再現されるかだ。ベンチマーク上の優位は強いが、採用判断ではガードレールの作動頻度、長時間タスクでの信頼性、Opus 4.8への切り替えが成果物に与える影響がより重要になる。
Related Articles
Claude Opus 4.8の初期評価は、コーディングだけでなく実務型エージェント作業に広がっている。Artificial AnalysisはGDPval-AAで1890点、GPT-5.5 xhighを121点上回ったとした。
HNで注目されたのは「Claudeがバグを見つける」話だけでなく、各チームが自分の対象に合わせて作り替えるharnessの形だった。
Anthropicは5月29日、Claude Platform on AWSでManaged Agentsのwebhooks、multiagent orchestration、self-hosted sandboxesを利用可能にした。Claude APIのAWS展開は、単なるモデル呼び出しからagent運用基盤へ広がっている。