Anthropic Claude Opus 4.6 リリース、GPT-5.2を上回る性能を実証

Read in other languages: 한국어English
LLM Feb 13, 2026 By Insights AI 1 min read 1 views Source

主要機能

Anthropicは2月5日にClaude Opus 4.6をリリースし、適応的思考(adaptive thinking)、100万トークンコンテキストウィンドウベータ、128K最大出力トークンを導入しました。これはコーディングエージェント性能でAnthropic史上最高スコアを記録しました。

ベンチマーク成果

コーディング性能: Terminal BenchでOpus 4.5の59.8%を超える65.4%を達成し、OSWorldエージェントコンピュータ使用ベンチマークでは66.3%から72.7%に上昇しました。

長文コンテキスト検索: 前バージョンが18.5%だった長文コンテキスト検索ベンチマークで76%を記録し、4倍以上の性能向上を示しました。

ナレッジワーク: 金融、法律などの経済的価値の高いナレッジワークタスクを評価するGDPval-AAベンチマークで、OpenAIのGPT-5.2を約144 Eloポイント、自社のOpus 4.5を190ポイント差で上回りました。

追加の成果

エージェントコーディング評価Terminal-Bench 2.0で最高スコアを達成し、複雑な学際的推論テストであるHumanity's Last Examですべての最新フロンティアモデルを上回りました。

業界への影響

Opus 4.6のリリースは、AIモデル間の性能競争が新たな段階に入ったことを示しています。特に企業環境で重要なナレッジワークとコーディングエージェント性能での優位性は、エンタープライズAI市場でのAnthropicの地位を強化すると予想されます。

出典: Anthropic

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.