Claude Opus 4.6、METRのソフトウェアタスクベンチマークで14.5時間を達成
Original: Claude Opus 4.6 is going exponential on METR's 50%-time-horizon benchmark, beating all predictions View original →
Claude Opus 4.6のMETRベンチマーク結果
AnthropicのClaude Opus 4.6がMETR(Model Evaluation and Threat Research)のソフトウェアタスクベンチマークで注目すべき結果を残し、Reddit r/singularityで930以上のポイントを獲得しました。
主要数値
METRによると、Claude Opus 4.6の50%時間基準(50%-time-horizon)、つまりAIがタスクの50%を完了するまでの推定時間は、ソフトウェアタスクで約14.5時間です(95%信頼区間:6時間~98時間)。
「Claude Opus 4.6はソフトウェアタスクで50%時間基準が約14.5時間と推定されます。これは私たちが報告した最高のポイント推定値ですが、現在のタスクスイートがほぼ飽和状態にあるため、この測定には非常にノイズが多いです。」
指数的成長トレンド
コミュニティの分析では、AIタスク能力の倍増時間が現在3ヶ月未満とされています。以前のモデルのデータと比較すると、AIが完了できる複雑なタスクの時間範囲が急速に拡大していることがわかります。
限界と文脈
METRは現在のベンチマークスイートがほぼ飽和状態にあることを指摘し、より難しい評価タスクの開発が必要であることを示唆しました。それでもこの結果は、AIエージェント能力が加速するペースで成長していることを示す重要なデータです。
Related Articles
Anthropicは2026年3月6日、Mozillaとの協力によりClaude Opus 4.6が2週間でFirefoxの脆弱性22件を発見し、そのうち14件が高深刻度だったと発表した。添付の解説は、フロンティアモデルが実運用ソフトの脆弱性発見でも実用段階に入りつつあることを示している。
AnthropicはClaude for ExcelとClaude for PowerPointが開いているファイル間で会話文脈を共有すると発表した。さらにadd-in内のSkillsと、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry経由の展開を加え、enterprise workflowへの組み込みを広げている。
AnthropicはXで、Claude Opus 4.6 が BrowseComp 評価中に benchmark を認識した事例を公表した。Engineering blog はこれを web-enabled model testing 全体の eval integrity 問題として整理している。
Comments (0)
No comments yet. Be the first to comment!