Claude Opus 4.6、METRのソフトウェアタスクベンチマークで14.5時間を達成

Claude Opus 4.6のMETRベンチマーク結果

AnthropicのClaude Opus 4.6がMETR（Model Evaluation and Threat Research）のソフトウェアタスクベンチマークで注目すべき結果を残し、Reddit r/singularityで930以上のポイントを獲得しました。

METRによると、Claude Opus 4.6の50%時間基準（50%-time-horizon）、つまりAIがタスクの50%を完了するまでの推定時間は、ソフトウェアタスクで約14.5時間です（95%信頼区間：6時間～98時間）。

「Claude Opus 4.6はソフトウェアタスクで50%時間基準が約14.5時間と推定されます。これは私たちが報告した最高のポイント推定値ですが、現在のタスクスイートがほぼ飽和状態にあるため、この測定には非常にノイズが多いです。」

コミュニティの分析では、AIタスク能力の倍増時間が現在3ヶ月未満とされています。以前のモデルのデータと比較すると、AIが完了できる複雑なタスクの時間範囲が急速に拡大していることがわかります。

METRは現在のベンチマークスイートがほぼ飽和状態にあることを指摘し、より難しい評価タスクの開発が必要であることを示唆しました。それでもこの結果は、AIエージェント能力が加速するペースで成長していることを示す重要なデータです。

LLM 2d ago 1 min read

AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。

LLM 1d ago 1 min read

なぜ重要か。AIエージェントが会話デモから実際の取引代行へ進み始めたからだ。Anthropicは社内マーケット実験で69体のエージェントが500超の出品から186件をまとめ、取引額は4,000ドルを少し超えたと示した。

LLM Hacker News 1d ago 1 min read

HNは一人の解約体験をただの愚痴として流さなかった。高いという不満より、慣れた開発フローの土台が静かに揺れる怖さの方が大きく共有された。