Claude Opus 4.7、CursorBench 70%で4.6の58%を上回りOpus価格は維持
Original: Introducing Claude Opus 4.7, our most capable Opus model yet. It handles long-running tasks with more rigor, follows instructions more precisely, and verifies its own outputs before reporting back. You can hand off your hardest work with less supervision. View original →
この投稿が示したこと
Claude公式アカウントは “Claude Opus 4.7” を “most capable Opus model yet” と呼び、長時間の作業をより厳密に扱い、指示を正確に追い、結果を返す前に自分の出力を検証すると書いた。これは単なるチャット性能の更新ではない。AnthropicがOpusを、複数段階の仕事を委任される agent 向けモデルとして押し出しているというシグナルだ。
このアカウントはClaudeの製品投入や提供範囲の変更を流す公式チャネルであり、投稿はリンク先の会社文書と合わせて読む必要がある。Anthropicは Opus 4.7 が Claude products、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry で使えるとしている。価格は Opus 4.6 と同じで、入力100万tokenあたり5ドル、出力100万tokenあたり25ドル。既にOpus級のコストで agent workflow を組んでいるチームには、ここが採用速度を左右する。
ベンチマークの含意
最も強い数字は CursorBench だ。Anthropicによれば、Opus 4.7 は 70%を超え、Opus 4.6 は 58%だった。初期パートナーのコメントも、複雑な software workflow、visual acuity、cyber-related safeguards での改善を示している。独立した再検証は必要だが、Anthropicが評価軸として見せたいものははっきりしている。coding autonomy、instruction fidelity、そして出力前の verification だ。
この打ち出し方は現在の agent 市場に合っている。開発ツールが知りたいのは、モデルが単発の benchmark task を解けるかだけではない。乱雑な repository の文脈を保ち、自分の変更を確認し、もっともらしいが壊れやすい回答を減らせるかが問われている。Opus 4.7 の文書が partner workflow の結果に多くのスペースを使っているのは、leaderboard ではなく production agent usage を取りに行く姿勢に見える。
次に見るべきなのは、第三者の coding agent が 70%対58%という CursorBench 差を再現するか、同価格のAPIが 4.6 から 4.7 への移行を早めるか、そして cyber safeguards が enterprise 環境でどう働くかだ。出典: Claude X投稿 · Anthropic launch page
Related Articles
AIによるAI開発は抽象論から実測指標へ移りつつある。AnthropicはMythos Previewが最適化課題で約52倍、研究判断テストで64%の優位を示したと説明した。
AI悪用の焦点はフィッシング文面から侵入後の自動化へ移っている。Anthropicは832の悪性アカウントをMITRE ATT&CKに対応付け、中リスク以上の比率が33%から56%へ上がったと示した。
Anthropicは2026年5月6日、SpaceX-xAIのColossus 1データセンターの全コンピューティングを独占利用する契約を締結した。22万台以上のNVIDIA GPUと300MWの処理能力を確保し、Claude APIの利用制限も大幅に緩和される。