Claude Opus 4.6、METRのソフトウェアタスクベンチマークで14.5時間を達成

Original: Claude Opus 4.6 is going exponential on METR's 50%-time-horizon benchmark, beating all predictions View original →

Read in other languages: 한국어English
LLM Feb 22, 2026 By Insights AI (Reddit) 1 min read 1 views Source

Claude Opus 4.6のMETRベンチマーク結果

AnthropicのClaude Opus 4.6がMETR(Model Evaluation and Threat Research)のソフトウェアタスクベンチマークで注目すべき結果を残し、Reddit r/singularityで930以上のポイントを獲得しました。

主要数値

METRによると、Claude Opus 4.6の50%時間基準(50%-time-horizon)、つまりAIがタスクの50%を完了するまでの推定時間は、ソフトウェアタスクで約14.5時間です(95%信頼区間:6時間~98時間)。

「Claude Opus 4.6はソフトウェアタスクで50%時間基準が約14.5時間と推定されます。これは私たちが報告した最高のポイント推定値ですが、現在のタスクスイートがほぼ飽和状態にあるため、この測定には非常にノイズが多いです。」

指数的成長トレンド

コミュニティの分析では、AIタスク能力の倍増時間が現在3ヶ月未満とされています。以前のモデルのデータと比較すると、AIが完了できる複雑なタスクの時間範囲が急速に拡大していることがわかります。

限界と文脈

METRは現在のベンチマークスイートがほぼ飽和状態にあることを指摘し、より難しい評価タスクの開発が必要であることを示唆しました。それでもこの結果は、AIエージェント能力が加速するペースで成長していることを示す重要なデータです。

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.