GPT-5.5 API公開でHNが先に見たもの、性能より価格と挙動
Original: OpenAI releases GPT-5.5 and GPT-5.5 Pro in the API View original →
HNはGPT-5.5を歓迎バナーより先にテスト台へ載せた。出発点はOpenAI APIのchangelogだったが、話題はすぐ実運用の感触へ移った。OpenAIはGPT-5.5とGPT-5.5 ProをAPIに入れたが、HN読者が気にしたのは新モデルという肩書きではない。editorやagentの中で今すぐ使ったとき、どこが良くなり、どこで躓くのかである。
いちばん刺さった論点はbenchmarkではなく挙動だった。ある開発者は、本番SQLの不具合を追う流れでは役に立ったのに、transactionとrollbackをきちんと書かせようとした瞬間、骨組みだけの答えに戻ったと書いた。別の読者はWordPressとGravity Formsの自前benchmarkを持ち出し、性能の割に値段が重いと指摘した。逆に、知能そのものや速度はかなり強いという評価もある。結局のところ、長い修正ループやeditor integrationまで含めてその強さが残るのかが争点になった。
価格もすぐ議論の中心に入った。HNはコンテキスト長ごとのtoken単価を並べ、Claude Opusと比べながら、大きな窓で値段が跳ねるぶんの効率が本当にあるのかを見ていた。小さく見えて大きかったのは信頼の話でもある。OpenAIがAPI展開には追加の安全対策が必要だと述べた直後に公開へ進んだことで、運用準備はどこまで固まっていたのかという疑問も出た。HNは宣伝文句より、コストと制限と展開タイミングが実体験と噛み合うかを重く見ていた。
だからこのスレッドは新製品の祝賀会ではなかった。HNが見たGPT-5.5は、トロフィーではなく請求書とpromptで即座に検証される高価な道具である。雰囲気も単純な賛否ではない。良いならどこが良いのか、高いならどこで高いのか、毎日使うコーディングモデルになれるなら何を証拠として示すべきか。その現実的な詰め方こそがスレッドの温度だった。出典はOpenAI API changelogとHNの議論である。
Related Articles
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
重要なのは、GPT-5.5 launch直後に出た最初期のexternal benchmark readoutのひとつだという点だ。Artificial AnalysisはIntelligence Indexで3点差首位とした一方、指数実行コストは約20%高くなったと述べた。
OpenAIが前に出したのは単なる性能更新ではない。Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を示しつつ、GPT-5.4級のレイテンシーを保つとして、長い作業を任せるコーディングエージェントの基準を押し上げた。
Comments (0)
No comments yet. Be the first to comment!