Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料
Original: Cursor puts GPT-5.5 on top of CursorBench with a 72.8% score View original →
Cursorの今回の投稿で重要なのは、単にGPT-5.5が使えるようになったという一点ではない。モデル性能の主張と価格の条件を同時に出してきたことだ。Cursorは4月24日のX投稿で、GPT-5.5が現在CursorBenchで72.8%の首位にあり、5月2日まで50%引きで提供されると書いた。コーディングモデルの更新は「なんとなく良くなった」で済まされがちだが、今回は数字と価格が前面に出ている。
“It’s currently the top model on CursorBench at 72.8%.”
この一文はソース投稿の中心だ。あわせて公開されたフォーラム投稿では、UI内の表記ゆれを受けて割引期限が5月2日であることを明確にし、通常価格も示した。入力は100万トークンあたり5.00ドル、キャッシュ入力は0.50ドル、出力は30.00ドルで、割引中はそれぞれ2.50ドル、0.25ドル、15.00ドルになる。最先端モデルは出力単価が重くなりやすいため、この条件は実運用の判断に直結する。
さらに重要なのは、72.8%の土台になっているCursorBenchの位置づけだ。Cursorは3月の解説記事で、CursorBenchは公開リポジトリのIssueではなく、社内エンジニアの実際のCursor利用セッションから作られていると説明した。曖昧で短い依頼、複数ファイルにまたがる変更、ツール利用を含む長めの作業が多く、公開ベンチマークより現実の開発体験に近いというのが会社側の主張だ。現行のCursorBench-3は初期版より問題スコープがおおむね2倍に広がったとも書かれている。
もちろん、72.8%をそのまま業界全体の王座と受け取るのは早い。CursorBenchはCursor自身が作り、運用している内部評価だからだ。それでも意味があるのは、狙っている問いが明確だからだ。つまり「抽象的に最強か」ではなく、「実際のIDE内で曖昧な依頼をどれだけ最後まで片付けるか」を見にいっている。開発者にとってはこちらの方が、日々のモデル選択に直結しやすい。
cursor_aiの投稿は、リリース情報、エージェント機能、評価方法論をまとめて出すことが多い。今回もその延長線上にある。次に見るべき点は、独立した利用報告でも72.8%の印象が再現されるか、割引終了後も費用対効果が保てるか、そして他社も同じ粒度で内部評価を公開するかだ。一次ソースは投稿、補強情報はフォーラムとCursorBench解説にある。
Related Articles
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer 2 checkpointを5時間ごとに出荷できると述べた。3月27日のtechnical reportでは、Kimi K2.5上のcontinued pretrainingとrealistic Cursor sessionでの大規模RLを組み合わせ、CursorBenchで61.3を記録したと説明している。
LocalLLaMAを動かしたのは単なるQwenのスコア更新ではなかった。同じ系統のローカルモデルがscaffold変更だけで19%から45%、さらに78.7%へ伸びたという流れが、ベンチマーク比較そのものを見直す空気を生んだ。
Comments (0)
No comments yet. Be the first to comment!