Claude Opus 4.7、CursorBench 70%で4.6の58%を上回りOpus価格は維持

この投稿が示したこと

Claude公式アカウントは “Claude Opus 4.7” を “most capable Opus model yet” と呼び、長時間の作業をより厳密に扱い、指示を正確に追い、結果を返す前に自分の出力を検証すると書いた。これは単なるチャット性能の更新ではない。AnthropicがOpusを、複数段階の仕事を委任される agent 向けモデルとして押し出しているというシグナルだ。

このアカウントはClaudeの製品投入や提供範囲の変更を流す公式チャネルであり、投稿はリンク先の会社文書と合わせて読む必要がある。Anthropicは Opus 4.7 が Claude products、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry で使えるとしている。価格は Opus 4.6 と同じで、入力100万tokenあたり5ドル、出力100万tokenあたり25ドル。既にOpus級のコストで agent workflow を組んでいるチームには、ここが採用速度を左右する。

ベンチマークの含意

最も強い数字は CursorBench だ。Anthropicによれば、Opus 4.7 は 70%を超え、Opus 4.6 は 58%だった。初期パートナーのコメントも、複雑な software workflow、visual acuity、cyber-related safeguards での改善を示している。独立した再検証は必要だが、Anthropicが評価軸として見せたいものははっきりしている。coding autonomy、instruction fidelity、そして出力前の verification だ。

この打ち出し方は現在の agent 市場に合っている。開発ツールが知りたいのは、モデルが単発の benchmark task を解けるかだけではない。乱雑な repository の文脈を保ち、自分の変更を確認し、もっともらしいが壊れやすい回答を減らせるかが問われている。Opus 4.7 の文書が partner workflow の結果に多くのスペースを使っているのは、leaderboard ではなく production agent usage を取りに行く姿勢に見える。

次に見るべきなのは、第三者の coding agent が 70%対58%という CursorBench 差を再現するか、同価格のAPIが 4.6 から 4.7 への移行を早めるか、そして cyber safeguards が enterprise 環境でどう働くかだ。出典: Claude X投稿 · Anthropic launch page

Claude Opus 4.7、CursorBench 70%で4.6の58%を上回りOpus価格は維持

この投稿が示したこと

ベンチマークの含意

Related Articles

Anthropic、AI雇用ショック研究に$200M 大規模実験へ軸足

Copilot BusinessにMAI-Code-1-Flash GA、速いcoding loop向け選択肢

Claude Fable 5とMythos 5、米輸出管理解除で遅れていたアクセスを再開

Related Articles

Anthropic、AI雇用ショック研究に$200M 大規模実験へ軸足

Copilot BusinessにMAI-Code-1-Flash GA、速いcoding loop向け選択肢
AI Jun 27, 2026 1 min read

Claude Fable 5とMythos 5、米輸出管理解除で遅れていたアクセスを再開
AI X/Twitter Jul 1, 2026 1 min read