Claude Opus 4.6、METRのソフトウェアタスクベンチマークで14.5時間を達成
Original: Claude Opus 4.6 is going exponential on METR's 50%-time-horizon benchmark, beating all predictions View original →
Claude Opus 4.6のMETRベンチマーク結果
AnthropicのClaude Opus 4.6がMETR(Model Evaluation and Threat Research)のソフトウェアタスクベンチマークで注目すべき結果を残し、Reddit r/singularityで930以上のポイントを獲得しました。
主要数値
METRによると、Claude Opus 4.6の50%時間基準(50%-time-horizon)、つまりAIがタスクの50%を完了するまでの推定時間は、ソフトウェアタスクで約14.5時間です(95%信頼区間:6時間~98時間)。
「Claude Opus 4.6はソフトウェアタスクで50%時間基準が約14.5時間と推定されます。これは私たちが報告した最高のポイント推定値ですが、現在のタスクスイートがほぼ飽和状態にあるため、この測定には非常にノイズが多いです。」
指数的成長トレンド
コミュニティの分析では、AIタスク能力の倍増時間が現在3ヶ月未満とされています。以前のモデルのデータと比較すると、AIが完了できる複雑なタスクの時間範囲が急速に拡大していることがわかります。
限界と文脈
METRは現在のベンチマークスイートがほぼ飽和状態にあることを指摘し、より難しい評価タスクの開発が必要であることを示唆しました。それでもこの結果は、AIエージェント能力が加速するペースで成長していることを示す重要なデータです。
Related Articles
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
Claude Opus 4.8の初期評価は、コーディングだけでなく実務型エージェント作業に広がっている。Artificial AnalysisはGDPval-AAで1890点、GPT-5.5 xhighを121点上回ったとした。
HNで注目されたのは「Claudeがバグを見つける」話だけでなく、各チームが自分の対象に合わせて作り替えるharnessの形だった。