Claude Fable 5、GDPval-AA 1932点でエージェント業務評価の首位へ

1932点が示すFable 5の位置

Claude Fable 5は、単なる新モデルの話題から、外部ベンチマークで測れる競争へ移った。Artificial AnalysisはXで、同モデルが"scores 1932 on GDPval-AA"と記し、エージェント型の実世界ナレッジワーク評価で首位に立ったと説明した。元の投稿はこちらで読める。

重要なのは、GDPval-AAが短い会話応答ではなく、複数段階の専門作業を想定した評価だという点だ。Artificial Analysisによると、Anthropicは公開前アクセスを提供し、評価では最大努力の適応型推論とClaude Opus 4.8へのフォールバック設定が使われた。Fable 5はGDPval-AAタスクの2%でOpus 4.8へ回り、Anthropicが示す平均セッション比率の5%未満という説明とも整合する。

このフォールバックは製品設計の中心にある。Anthropicの公式資料では、Fable 5は一般提供向けに安全化されたMythos級モデルとされる。サイバーセキュリティ、生物学、化学、蒸留に関わる一部の要求はOpus 4.8へ送られる一方、同社はコーディング、知識労働、視覚、科学研究で過去の一般提供Claudeを上回ると説明している。価格は入力100万トークン10ドル、出力100万トークン50ドルで、安全監視のため30日間のデータ保持が求められる。

次に見るべき点は、この首位が実際の開発、調査、企業ワークフローでどこまで再現されるかだ。ベンチマーク上の優位は強いが、採用判断ではガードレールの作動頻度、長時間タスクでの信頼性、Opus 4.8への切り替えが成果物に与える影響がより重要になる。

Claude Fable 5、GDPval-AA 1932点でエージェント業務評価の首位へ

1932点が示すFable 5の位置

Related Articles

Opus 4.8、GDPval-AAでGPT-5.5を121点上回る外部評価

Claude Sonnet 5、Opus級agent性能をFree/Pro標準へ

Claude Opus 5、Fable級のcoding性能を半額圏に寄せる日常高性能モデルとroutingの狙い