Anthropic Claude Opus 4.6 リリース、GPT-5.2を上回る性能を実証
主要機能
Anthropicは2月5日にClaude Opus 4.6をリリースし、適応的思考(adaptive thinking)、100万トークンコンテキストウィンドウベータ、128K最大出力トークンを導入しました。これはコーディングエージェント性能でAnthropic史上最高スコアを記録しました。
ベンチマーク成果
コーディング性能: Terminal BenchでOpus 4.5の59.8%を超える65.4%を達成し、OSWorldエージェントコンピュータ使用ベンチマークでは66.3%から72.7%に上昇しました。
長文コンテキスト検索: 前バージョンが18.5%だった長文コンテキスト検索ベンチマークで76%を記録し、4倍以上の性能向上を示しました。
ナレッジワーク: 金融、法律などの経済的価値の高いナレッジワークタスクを評価するGDPval-AAベンチマークで、OpenAIのGPT-5.2を約144 Eloポイント、自社のOpus 4.5を190ポイント差で上回りました。
追加の成果
エージェントコーディング評価Terminal-Bench 2.0で最高スコアを達成し、複雑な学際的推論テストであるHumanity's Last Examですべての最新フロンティアモデルを上回りました。
業界への影響
Opus 4.6のリリースは、AIモデル間の性能競争が新たな段階に入ったことを示しています。特に企業環境で重要なナレッジワークとコーディングエージェント性能での優位性は、エンタープライズAI市場でのAnthropicの地位を強化すると予想されます。
出典: Anthropic
Related Articles
Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
Claude Opus 4.8の初期評価は、コーディングだけでなく実務型エージェント作業に広がっている。Artificial AnalysisはGDPval-AAで1890点、GPT-5.5 xhighを121点上回ったとした。