LLM X/Twitter Apr 30, 2026 1 min read
重要なのは、modelが速くなっても周辺のorchestrationが遅ければ体感は伸びないことだ。OpenAIはWebSocket modeでagent workflowを最大40%短縮し、実効推論速度も毎秒約65 tokensから1,000 tokens近くまで引き上げたとしている。
重要なのは、modelが速くなっても周辺のorchestrationが遅ければ体感は伸びないことだ。OpenAIはWebSocket modeでagent workflowを最大40%短縮し、実効推論速度も毎秒約65 tokensから1,000 tokens近くまで引き上げたとしている。
OpenAIDevsはCodexの/fastモードを発表し、GPT-5.4が1.5倍速く動作すると説明した。知能と推論品質を維持しながら、実装・反復・デバッグのサイクル短縮を狙う更新だ。
開発者Nick TikhonovovがSTT → LLM → TTSのフルパイプラインを含みながら平均400msのエンドツーエンドレイテンシを達成した音声AIエージェントの構築方法を公開しました。
Hacker Newsで注目された投稿は、AnthropicとOpenAIのfast modeを比較し、LLMの体感速度を決める要因がモデル性能だけでなく推論基盤設計にあることを示した。