OpenAI、GPT-5クラス推論搭載のリアルタイム音声APIモデル3種を一般公開
OpenAIはリアルタイム音声APIに3つの新モデルを追加し、Realtime APIをベータからGA(一般公開)へ移行した。GPT-5クラスの推論能力を持つ音声モデルをはじめ、リアルタイム翻訳・ストリーミング文字起こしの3種類が揃い、開発者の本番環境での利用が可能になった。
3つの新モデル詳細
- GPT-Realtime-2: GPT-5クラスの推論を持つ初の音声モデル。音声ストリームをリアルタイム処理しながら複数ツールの並列呼び出しや割り込み処理に対応。入力100万トークンあたり$32、出力$64。
- GPT-Realtime-Translate: 70言語以上の入力を13言語にリアルタイム翻訳。話者の発話速度に追随。分あたり$0.034。
- GPT-Realtime-Whisper: 発話中にリアルタイムでテキスト変換するストリーミング文字起こしモデル。分あたり$0.017。
Realtime API の正式版移行
今回のリリースにより、Realtime APIはベータを終了し本番利用可能な正式版に移行した。開発者は個別のSTT・TTSパイプラインなしに、音声を直接処理するアプリを構築できる。詳細はOpenAIブログを参照。
Related Articles
LLM 3d ago 1 min read
OpenAIは2026年5月7日、APIを通じてリアルタイム音声AIモデル3種を公開した。GPT-5クラスの推論を備えたGPT-Realtime-2、70言語以上のリアルタイム翻訳モデル、ストリーミング文字起こしモデルが含まれる。
LLM 5d ago 1 min read
OpenAIは5月7日、GPT-Realtime-2・Translate・Whisperの3モデルをRealtimeAPIで正式リリースした。70言語超のリアルタイム翻訳、12.8万トークンのコンテキスト対応音声エージェント、ストリーミング音声認識を提供する。
LLM May 9, 2026 1 min read
OpenAIは5月5日、GPT-5.5 InstantをChatGPTの全ユーザー向けデフォルトモデルとして展開した。過去の会話やGmail連携による高度な個人化が特徴で、APIではchat-latestエンドポイントとして利用可能。
Comments (0)
No comments yet. Be the first to comment!