OpenAI、GPT-5級推論を音声へ——GPT-Realtime-2をAPIで公開
Original: OpenAI Introduces GPT-Realtime-2: GPT-5-Class Reasoning for Voice Agents View original →
リアルタイム音声推論の新章
OpenAIはGPT-5クラスの推論能力を備えたリアルタイム音声モデルGPT-Realtime-2をAPIで公開した。音声エージェントが会話の流れの中で推論・行動できるようにし、単純な一問一答の枠組みを超えた新世代の音声AIを目指している。
同時リリースのストリーミングモデル
GPT-Realtime-2と同時に、2つのストリーミングモデルも追加された。
- GPT-Realtime-Translate: 70以上の入力言語から13の出力言語へのリアルタイム音声翻訳
- GPT-Realtime-Whisper: 発話と同時にテキストを生成するストリーミング音声文字起こし
音声AIのパラダイムシフト
GPT-Realtime-2は、割り込みへの対応や長い会話のコンテキスト維持、複雑なリクエストへのリアルタイム推論を実現する。以前のRealtime APIと比較して、コンテキストウィンドウも32Kから128Kに拡張された。
価格
GPT-Realtime-2のオーディオ入力トークン価格は$32/100万トークンで、APIですぐに利用可能だ。
Related Articles
重要なのは、xAIがGrok Voiceのstackをstandalone STT/TTS APIに切り出し、batch $0.10/hour、streaming $0.20/hourという価格を出した点だ。25+ languages、diarization、word-level timestampsでenterprise transcriptionを正面から狙う。
英国AI安全機関(AISI)の評価によると、OpenAIのGPT-5.5は人間専門家が最大12時間を要する複雑な多段階企業ネットワーク侵入シミュレーションをわずか11分、1.73ドルで完了した。AnthropicのClaude Mythosに続いて基準を達成した2番目のモデルとなり、AIサイバー能力の向上が業界全体のトレンドである事を示している。
ハーバード医科大学の臨床試験で、OpenAI o1推論モデルが救急患者の67%を正確に診断し、医師の50〜55%を超えた。詳細情報がある場合は精度82%に達し、長期治療計画でも89% vs 医師34%と大差をつけた。
Comments (0)
No comments yet. Be the first to comment!