腐食中
OpenAI、GPT-5クラスの推論を備えたリアルタイム音声AIモデル3種を公開
Read in other languages: 한국어
3モデルの概要
OpenAIは2026年5月7日、開発者が新世代の音声アプリを構築できるリアルタイムオーディオモデル3種をAPIを通じて公開した。各モデルは異なるユースケースを対象としている。
- GPT-Realtime-2: OpenAI初のGPT-5クラスの推論能力を備えたリアルタイム音声モデル。複雑なリクエストへの対応、ツールの呼び出し、割り込みへの対処を行いながら自然な会話の流れを維持する。Big Bench Audioでは前世代モデル比15.2%高いスコアを記録。
- GPT-Realtime-Translate: 話者のペースに合わせて70以上の入力言語を13の出力言語へリアルタイムで翻訳するモデル。
- GPT-Realtime-Whisper: 話者が話しながらリアルタイムで文字起こしを行うストリーミング音声テキスト変換モデル。
価格
GPT-Realtime-2は音声入力100万トークンあたり32ドル、出力100万トークンあたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドル。
意義
GPT-5クラスの推論をリアルタイム音声モデルに組み込むことは、単純な音声コマンドを超えて複雑なマルチステップタスクを音声で処理するエージェントの実現に向けた重要な一歩だ。詳細はOpenAI公式発表を参照。
Related Articles
LLM X/Twitter 2d ago 1 min read
OpenAIはChatGPTで最も使われるGPT-5.5 Instantを、計画、買い物、地域推薦に合わせて調整する。6月24日に有料ユーザー、6月25日に無料ユーザーへ展開される。
LLM X/Twitter 4d ago 1 min read
AIによる脆弱性対応の焦点は、発見数から修正までの速度へ移っている。OpenAIはGPT-5.5-CyberがCyberGymで85.6%に達し、Codex Securityが3万超のコードベースを走査したと示した。
LLM News 2d ago 1 min read
OpenAIの新しいEconomic Researchは、Codexをチャットから委任型作業への移行として位置づけた。組織ユーザーでは非開発者のCodex利用が2025年8月以降189倍に増え、個人ユーザーの70.2%が人間なら1時間超と推定される作業を少なくとも一度依頼している。