DeepSWEは91リポジトリ横断の113課題で、コーディングエージェント評価をより長期作業寄りにした。初回結果はGPT-5.5が70.0%、Claude Opus 4.7が54.2%。
DeepSWEは91リポジトリ横断の113課題で、コーディングエージェント評価をより長期作業寄りにした。初回結果はGPT-5.5が70.0%、Claude Opus 4.7が54.2%。
OpenAIは欧州のサイバーセキュリティチームにGPT-5.5-Cyberへのアクセスを提供するEUサイバーアクションプランを発表。一方、AnthropicはMythosモデルの悪用リスクを理由にEUへの提供を見送っている。
GitHubはGPT-5.5をCopilotの各面に広げ始め、最新モデルの話を開発現場の選択肢へ変えた。対象はPro+、Business、Enterpriseで、利用には7.5倍のプレミアム課金と管理者設定が付く。
なぜ重要か。最先端のコーディングモデルでは公開ベンチマークだけでは体感差が見えにくくなっているからだ。CursorはGPT-5.5が自社評価のCursorBenchで72.8%の首位に立ち、5月2日まで価格を50%下げると書いた。
HNはGPT-5.5を祝賀ムードより先に検算モードで迎えた。最初に問われたのは、どれだけ賢いかより、価格とコンテキスト帯、そしてコーディング時の振る舞いが本当に改善したのかだった。
重要なのは、旗艦modelが製品デモから実装対象へ変わったことだ。OpenAIのdeveloper accountはretry削減を強調し、公式release pageは1M contextと新しいAPI pricingを示している。
重要なのは、新しいmodelが開発者の常用toolへ入ってきたことだ。GitHubはGPT-5.5が複雑なmulti-step codingで最も強いとし、rolloutには7.5倍のpremium request multiplierが付くと示した。
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
重要なのは、GPT-5.5 launch直後に出た最初期のexternal benchmark readoutのひとつだという点だ。Artificial AnalysisはIntelligence Indexで3点差首位とした一方、指数実行コストは約20%高くなったと述べた。