OpenAI、GPT-5クラス推論の音声モデル3種をRealtimeAPIで一般提供
OpenAIは2026年5月7日、Realtime APIを通じて3種の音声特化モデルを正式リリースした。GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperの3モデルで、同時にRealtime APIがベータを終了し正式提供(GA)へ移行した。
GPT-Realtime-2:GPT-5クラスの音声エージェント
GPT-Realtime-2はGPT-5クラスの推論能力を持つ音声エージェントモデル。コンテキストウィンドウが3.2万トークンから12.8万トークンへ4倍拡大し、長時間のマルチステップワークフローや割り込み処理、ツール呼び出しにも対応する。
GPT-Realtime-Translate:70言語のリアルタイム翻訳
70言語以上の入力を13の出力言語にストリーミング翻訳する。料金は1分あたり0.034ドル。カスタマーサポートや同時通訳アプリへの組み込みに最適だ。
GPT-Realtime-Whisper:ストリーミング音声認識
話しながらリアルタイムでテキスト変換するストリーミング文字起こしモデル。1分あたり0.017ドルと最も低価格で、字幕生成や議事録自動化に活用できる。
詳細はOpenAI公式ブログを参照。
Related Articles
OpenAIがChatGPTのデフォルトモデルをGPT-5.3 InstantからGPT-5.5 Instantに切り替えた。医療・法律・金融などハイリスクな質問での幻覚が52.5%減少し、Gmail連携によるパーソナライズとメモリソースの透明性機能も追加された。
OpenAIは5月5日、GPT-5.5 InstantをChatGPTの全ユーザー向けデフォルトモデルとして展開した。過去の会話やGmail連携による高度な個人化が特徴で、APIではchat-latestエンドポイントとして利用可能。
OpenAIは5月5日、GPT-5.5 Instantをリリースし、ChatGPTのデフォルトモデルをGPT-5.3 Instantから切り替えた。高リスクプロンプトでの幻覚エラーを52.5%削減し、過去の会話・ファイル・GmailをAIが参照するパーソナル記憶検索機能を追加した。
Comments (0)
No comments yet. Be the first to comment!