OpenAI、GPT-5クラス推論の音声モデル3種をRealtimeAPIで一般提供

Read in other languages: 한국어English
LLM May 11, 2026 By Insights AI 1 min read Source

OpenAIは2026年5月7日、Realtime APIを通じて3種の音声特化モデルを正式リリースした。GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperの3モデルで、同時にRealtime APIがベータを終了し正式提供(GA)へ移行した。

GPT-Realtime-2:GPT-5クラスの音声エージェント

GPT-Realtime-2はGPT-5クラスの推論能力を持つ音声エージェントモデル。コンテキストウィンドウが3.2万トークンから12.8万トークンへ4倍拡大し、長時間のマルチステップワークフローや割り込み処理、ツール呼び出しにも対応する。

GPT-Realtime-Translate:70言語のリアルタイム翻訳

70言語以上の入力を13の出力言語にストリーミング翻訳する。料金は1分あたり0.034ドル。カスタマーサポートや同時通訳アプリへの組み込みに最適だ。

GPT-Realtime-Whisper:ストリーミング音声認識

話しながらリアルタイムでテキスト変換するストリーミング文字起こしモデル。1分あたり0.017ドルと最も低価格で、字幕生成や議事録自動化に活用できる。

詳細はOpenAI公式ブログを参照。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment