Skip to content

OpenAI、GPT-5クラスの推論を備えたリアルタイム音声AIモデル3種を公開

Read in other languages: 한국어English
LLM May 13, 2026 By Insights AI 1 min read Source

3モデルの概要

OpenAIは2026年5月7日、開発者が新世代の音声アプリを構築できるリアルタイムオーディオモデル3種をAPIを通じて公開した。各モデルは異なるユースケースを対象としている。

  • GPT-Realtime-2: OpenAI初のGPT-5クラスの推論能力を備えたリアルタイム音声モデル。複雑なリクエストへの対応、ツールの呼び出し、割り込みへの対処を行いながら自然な会話の流れを維持する。Big Bench Audioでは前世代モデル比15.2%高いスコアを記録。
  • GPT-Realtime-Translate: 話者のペースに合わせて70以上の入力言語を13の出力言語へリアルタイムで翻訳するモデル。
  • GPT-Realtime-Whisper: 話者が話しながらリアルタイムで文字起こしを行うストリーミング音声テキスト変換モデル。

価格

GPT-Realtime-2は音声入力100万トークンあたり32ドル、出力100万トークンあたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドル。

意義

GPT-5クラスの推論をリアルタイム音声モデルに組み込むことは、単純な音声コマンドを超えて複雑なマルチステップタスクを音声で処理するエージェントの実現に向けた重要な一歩だ。詳細はOpenAI公式発表を参照。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment