OpenAI、GPT-5級推論を音声へ——GPT-Realtime-2をAPIで公開

リアルタイム音声推論の新章

OpenAIはGPT-5クラスの推論能力を備えたリアルタイム音声モデルGPT-Realtime-2をAPIで公開した。音声エージェントが会話の流れの中で推論・行動できるようにし、単純な一問一答の枠組みを超えた新世代の音声AIを目指している。

同時リリースのストリーミングモデル

GPT-Realtime-2と同時に、2つのストリーミングモデルも追加された。

GPT-Realtime-Translate: 70以上の入力言語から13の出力言語へのリアルタイム音声翻訳
GPT-Realtime-Whisper: 発話と同時にテキストを生成するストリーミング音声文字起こし

音声AIのパラダイムシフト

GPT-Realtime-2は、割り込みへの対応や長い会話のコンテキスト維持、複雑なリクエストへのリアルタイム推論を実現する。以前のRealtime APIと比較して、コンテキストウィンドウも32Kから128Kに拡張された。

価格

GPT-Realtime-2のオーディオ入力トークン価格は$32/100万トークンで、APIですぐに利用可能だ。

AI 3d ago 1 min read

最高でもC+、AI Safety Indexが示す安全コミットメントの後退

Future of Life InstituteのSummer 2026 AI Safety Indexでは、9社のfrontier AI企業のうちC+を超えた企業はなかった。重要なのは首位争いではなく、能力拡大と防衛利用の広がりに比べて安全体制の上限が低いことだ。

#ai-safety #policy #openai

AI X/Twitter Apr 18, 2026 1 min read

Grok STT API、25+言語と1時間$0.10のbatch価格でvoice API市場に参入

重要なのは、xAIがGrok Voiceのstackをstandalone STT/TTS APIに切り出し、batch $0.10/hour、streaming $0.20/hourという価格を出した点だ。25+ languages、diarization、word-level timestampsでenterprise transcriptionを正面から狙う。

#xai #grok #speech-to-text

AI X/Twitter May 14, 2026 1 min read

OpenAI、Realtime APIにGPT-5クラスの推論対応音声モデル3種を追加

OpenAIがRealtime APIに推論機能を持つ音声モデル3種を追加。開発者はGPT-5クラスの知性を持つリアルタイム音声アプリケーションを構築できるようになった。

#openai #voice-ai #realtime-api