GPT-5.5でHNが見た本質 ベンチより「最後までやるか」
Original: GPT-5.5 View original →
HNが見ていたのは賢さよりも完走力だった
GPT-5.5のHacker Newsスレッドが一気に伸びたのは、単なるベンチマーク更新として読まれなかったからだ。焦点はもっと実務寄りだった。雑多で途中確認も必要なPC作業を、どこまでAIに任せて最後まで走らせられるのか。コメントでも、その一点に関心が集まっていた。
OpenAIの説明もまさにそこを押している。GPT-5.5は agentic coding、computer use、オンライン調査、文書作成、長めの知識労働での強さを前面に出している。公開された評価では Terminal-Bench 2.0 が82.7%、OSWorld-Verified が78.7%、GDPval が84.9%、CyberGym が81.8%。しかも GPT-5.4 と同程度のトークン遅延で、同じ Codex タスクをより少ないトークンで終えるという。
HNの温度を上げたのは、その性能表そのものより運用の話だった。ChatGPT と Codex への段階的ロールアウトを気にする声、API 提供がまだ来ていない点を気にする声、そして早くもセキュリティ用途で試したいという声。コミュニティはすごい新モデルだで止まらず、いつ業務に入れられるのかを見ていた。
- 複数段階の作業で途中停止せず走り切るか
- ツール利用と自己検証が実務水準に届くか
- API時期や提供条件が導入速度を左右しないか
だからこのスレッドは普通の新製品祭りとは少し違った。GPT-5.5が印象的かどうかより、委任できる作業の上限をどこまで押し上げるかが争点だった。そこが本当に上がるなら、GPT-5.5は派手な見出しよりも、AIに任せる仕事量の新しい基準として残る。
Related Articles
重要なのは、OpenAIがGPT-5.5を単なるchat refreshではなくagent workflowの中核へ置いたことだ。メインtweetの2分後、OpenAI DevelopersはChatGPTとCodexへの投入を補足し、API提供も続くと示した。
これは単なる利用者数の話ではなく、流通戦略の話だ。OpenAIによると、Codexは4月初旬の週次300万人超から2週間で400万人超へ伸び、その需要をCodex Labsと7社のGSI体制で受け止める構えに入った。
ボトルネックがGPUからAPI層へ移ったため、OpenAIは転送方式そのものを変えた。Responses APIにWebSocketモードと接続スコープのキャッシュを入れたことで、agent workflowはend-to-endで最大40%改善し、GPT-5.3-Codex-Sparkは1,000 TPS、最大4,000 TPSのburstに届いたという。
Comments (0)
No comments yet. Be the first to comment!