Skip to content

OpenAI、GPT-5クラス推論搭載のリアルタイム音声APIモデル3種を一般公開

Read in other languages: 한국어English
LLM May 16, 2026 By Insights AI 1 min read 1 views Source

OpenAIはリアルタイム音声APIに3つの新モデルを追加し、Realtime APIをベータからGA(一般公開)へ移行した。GPT-5クラスの推論能力を持つ音声モデルをはじめ、リアルタイム翻訳・ストリーミング文字起こしの3種類が揃い、開発者の本番環境での利用が可能になった。

3つの新モデル詳細

  • GPT-Realtime-2: GPT-5クラスの推論を持つ初の音声モデル。音声ストリームをリアルタイム処理しながら複数ツールの並列呼び出しや割り込み処理に対応。入力100万トークンあたり$32、出力$64。
  • GPT-Realtime-Translate: 70言語以上の入力を13言語にリアルタイム翻訳。話者の発話速度に追随。分あたり$0.034。
  • GPT-Realtime-Whisper: 発話中にリアルタイムでテキスト変換するストリーミング文字起こしモデル。分あたり$0.017。

Realtime API の正式版移行

今回のリリースにより、Realtime APIはベータを終了し本番利用可能な正式版に移行した。開発者は個別のSTT・TTSパイプラインなしに、音声を直接処理するアプリを構築できる。詳細はOpenAIブログを参照。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment