OpenAI、GPT-5クラスの推論を備えたリアルタイム音声AIモデル3種を公開
3モデルの概要
OpenAIは2026年5月7日、開発者が新世代の音声アプリを構築できるリアルタイムオーディオモデル3種をAPIを通じて公開した。各モデルは異なるユースケースを対象としている。
- GPT-Realtime-2: OpenAI初のGPT-5クラスの推論能力を備えたリアルタイム音声モデル。複雑なリクエストへの対応、ツールの呼び出し、割り込みへの対処を行いながら自然な会話の流れを維持する。Big Bench Audioでは前世代モデル比15.2%高いスコアを記録。
- GPT-Realtime-Translate: 話者のペースに合わせて70以上の入力言語を13の出力言語へリアルタイムで翻訳するモデル。
- GPT-Realtime-Whisper: 話者が話しながらリアルタイムで文字起こしを行うストリーミング音声テキスト変換モデル。
価格
GPT-Realtime-2は音声入力100万トークンあたり32ドル、出力100万トークンあたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドル。
意義
GPT-5クラスの推論をリアルタイム音声モデルに組み込むことは、単純な音声コマンドを超えて複雑なマルチステップタスクを音声で処理するエージェントの実現に向けた重要な一歩だ。詳細はOpenAI公式発表を参照。
Related Articles
OpenAI launched GPT-Realtime-2, GPT-Realtime-Translate, and GPT-Realtime-Whisper — new voice API models covering live reasoning, real-time translation across 70+ languages, and streaming transcription. The Realtime API is now generally available for production use.
The bottleneck in AI security is shifting from finding bugs to landing fixes. OpenAI says GPT-5.5-Cyber reached 85.6% on CyberGym, while Codex Security has scanned more than 30,000 codebases.
OpenAI is tuning ChatGPT’s most-used model for planning, shopping, and local recommendations. Paid users receive the GPT-5.5 Instant update on June 24, with free users following on June 25.