Anthropic Claude Opus 4.6 リリース、GPT-5.2を上回る性能を実証
主要機能
Anthropicは2月5日にClaude Opus 4.6をリリースし、適応的思考(adaptive thinking)、100万トークンコンテキストウィンドウベータ、128K最大出力トークンを導入しました。これはコーディングエージェント性能でAnthropic史上最高スコアを記録しました。
ベンチマーク成果
コーディング性能: Terminal BenchでOpus 4.5の59.8%を超える65.4%を達成し、OSWorldエージェントコンピュータ使用ベンチマークでは66.3%から72.7%に上昇しました。
長文コンテキスト検索: 前バージョンが18.5%だった長文コンテキスト検索ベンチマークで76%を記録し、4倍以上の性能向上を示しました。
ナレッジワーク: 金融、法律などの経済的価値の高いナレッジワークタスクを評価するGDPval-AAベンチマークで、OpenAIのGPT-5.2を約144 Eloポイント、自社のOpus 4.5を190ポイント差で上回りました。
追加の成果
エージェントコーディング評価Terminal-Bench 2.0で最高スコアを達成し、複雑な学際的推論テストであるHumanity's Last Examですべての最新フロンティアモデルを上回りました。
業界への影響
Opus 4.6のリリースは、AIモデル間の性能競争が新たな段階に入ったことを示しています。特に企業環境で重要なナレッジワークとコーディングエージェント性能での優位性は、エンタープライズAI市場でのAnthropicの地位を強化すると予想されます。
出典: Anthropic
Related Articles
AnthropicはFebruary 17, 2026にClaude Sonnet 4.6を発表し、betaの1M token context windowを追加した。API価格を$3/$15 per million tokensに据え置いたままclaude.aiとClaude Coworkの標準モデルを更新し、より多くの実務ワークロードをSonnet系へ寄せる意図を示した。
Anthropicは2月17日にClaude Sonnet 4.6をリリースし、Free・Proプランのデフォルトモデルに採用した。100万トークンのコンテキストウィンドウ(ベータ)を搭載し、Opus級の性能をSonnet価格で提供する。
Anthropicは2026年3月6日、Mozillaとの協力によりClaude Opus 4.6が2週間でFirefoxの脆弱性22件を発見し、そのうち14件が高深刻度だったと発表した。添付の解説は、フロンティアモデルが実運用ソフトの脆弱性発見でも実用段階に入りつつあることを示している。
Comments (0)
No comments yet. Be the first to comment!