Claude Opus 4.6、METRのソフトウェアタスクベンチマークで14.5時間を達成

Claude Opus 4.6のMETRベンチマーク結果

AnthropicのClaude Opus 4.6がMETR（Model Evaluation and Threat Research）のソフトウェアタスクベンチマークで注目すべき結果を残し、Reddit r/singularityで930以上のポイントを獲得しました。

METRによると、Claude Opus 4.6の50%時間基準（50%-time-horizon）、つまりAIがタスクの50%を完了するまでの推定時間は、ソフトウェアタスクで約14.5時間です（95%信頼区間：6時間～98時間）。

「Claude Opus 4.6はソフトウェアタスクで50%時間基準が約14.5時間と推定されます。これは私たちが報告した最高のポイント推定値ですが、現在のタスクスイートがほぼ飽和状態にあるため、この測定には非常にノイズが多いです。」

コミュニティの分析では、AIタスク能力の倍増時間が現在3ヶ月未満とされています。以前のモデルのデータと比較すると、AIが完了できる複雑なタスクの時間範囲が急速に拡大していることがわかります。

METRは現在のベンチマークスイートがほぼ飽和状態にあることを指摘し、より難しい評価タスクの開発が必要であることを示唆しました。それでもこの結果は、AIエージェント能力が加速するペースで成長していることを示す重要なデータです。

LLM 1d ago 1 min read

高性能モデルの競争軸が、最高点だけでなく費用対効果へ移っている。Claude Opus 5はFable 5に近いcoding・知識作業性能を掲げ、API価格は入力$5/M・出力$25/M tokensに据え置かれた。

LLM Feb 13, 2026 1 min read

AnthropicがClaude Opus 4.6を発表し、コーディング、長文コンテキスト理解、ナレッジワークで業界最高性能を達成しました。

LLM X/Twitter Jun 11, 2026 1 min read

Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。