OpenAI、GPT-5クラスの推論を備えたリアルタイム音声AIモデル3種を公開

3モデルの概要

OpenAIは2026年5月7日、開発者が新世代の音声アプリを構築できるリアルタイムオーディオモデル3種をAPIを通じて公開した。各モデルは異なるユースケースを対象としている。

GPT-Realtime-2: OpenAI初のGPT-5クラスの推論能力を備えたリアルタイム音声モデル。複雑なリクエストへの対応、ツールの呼び出し、割り込みへの対処を行いながら自然な会話の流れを維持する。Big Bench Audioでは前世代モデル比15.2%高いスコアを記録。
GPT-Realtime-Translate: 話者のペースに合わせて70以上の入力言語を13の出力言語へリアルタイムで翻訳するモデル。
GPT-Realtime-Whisper: 話者が話しながらリアルタイムで文字起こしを行うストリーミング音声テキスト変換モデル。

GPT-Realtime-2は音声入力100万トークンあたり32ドル、出力100万トークンあたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドル。

GPT-5クラスの推論をリアルタイム音声モデルに組み込むことは、単純な音声コマンドを超えて複雑なマルチステップタスクを音声で処理するエージェントの実現に向けた重要な一歩だ。詳細はOpenAI公式発表を参照。

LLM 2d ago 1 min read

OpenAIは5月7日、GPT-Realtime-2・Translate・Whisperの3モデルをRealtimeAPIで正式リリースした。70言語超のリアルタイム翻訳、12.8万トークンのコンテキスト対応音声エージェント、ストリーミング音声認識を提供する。

LLM 4d ago 1 min read

OpenAIは5月5日、GPT-5.5 InstantをChatGPTの全ユーザー向けデフォルトモデルとして展開した。過去の会話やGmail連携による高度な個人化が特徴で、APIではchat-latestエンドポイントとして利用可能。

LLM 5d ago 1 min read

OpenAIは5月5日、GPT-5.5 Instantをリリースし、ChatGPTのデフォルトモデルをGPT-5.3 Instantから切り替えた。高リスクプロンプトでの幻覚エラーを52.5%削減し、過去の会話・ファイル・GmailをAIが参照するパーソナル記憶検索機能を追加した。