Anthropic Claude Opus 4.6 リリース、GPT-5.2を上回る性能を実証

主要機能

Anthropicは2月5日にClaude Opus 4.6をリリースし、適応的思考(adaptive thinking)、100万トークンコンテキストウィンドウベータ、128K最大出力トークンを導入しました。これはコーディングエージェント性能でAnthropic史上最高スコアを記録しました。

ベンチマーク成果

コーディング性能: Terminal BenchでOpus 4.5の59.8%を超える65.4%を達成し、OSWorldエージェントコンピュータ使用ベンチマークでは66.3%から72.7%に上昇しました。

長文コンテキスト検索: 前バージョンが18.5%だった長文コンテキスト検索ベンチマークで76%を記録し、4倍以上の性能向上を示しました。

ナレッジワーク: 金融、法律などの経済的価値の高いナレッジワークタスクを評価するGDPval-AAベンチマークで、OpenAIのGPT-5.2を約144 Eloポイント、自社のOpus 4.5を190ポイント差で上回りました。

追加の成果

エージェントコーディング評価Terminal-Bench 2.0で最高スコアを達成し、複雑な学際的推論テストであるHumanity's Last Examですべての最新フロンティアモデルを上回りました。

業界への影響

Opus 4.6のリリースは、AIモデル間の性能競争が新たな段階に入ったことを示しています。特に企業環境で重要なナレッジワークとコーディングエージェント性能での優位性は、エンタープライズAI市場でのAnthropicの地位を強化すると予想されます。

出典: Anthropic

LLM 1d ago 1 min read

Claude Opus 5、Fable級のcoding性能を半額圏に寄せる日常高性能モデルとroutingの狙い

高性能モデルの競争軸が、最高点だけでなく費用対効果へ移っている。Claude Opus 5はFable 5に近いcoding・知識作業性能を掲げ、API価格は入力$5/M・出力$25/M tokensに据え置かれた。

#anthropic #claude #coding-agents

LLM Mar 25, 2026 1 min read

Anthropic、Claude Sonnet 4.6公開 1M token contextとagent機能を強化

AnthropicはFeb 17, 2026、Claude Sonnet 4.6を発表し、coding、computer use、long-context reasoning、agent planningを幅広く強化したと説明した。価格はSonnet 4.5と同じ$3/$15のまま、1M token context windowと複数のtool機能を追加している。

#anthropic #claude #llm

LLM Hacker News Feb 24, 2026 1 min read

「カーウォッシュ」テスト：53のLLMモデル中、11だけが簡単な論理問題に合格

Opperが53種類の主要LLMを対象に「カーウォッシュ」論理テストを実施。「洗車場が50メートル先にある。歩くべきか、運転すべきか？」というシンプルな問いに正解できたのはわずか11モデルだった。

#llm #benchmark #reasoning