OpenAI、GPT-5級推論を音声へ——GPT-Realtime-2をAPIで公開

リアルタイム音声推論の新章

OpenAIはGPT-5クラスの推論能力を備えたリアルタイム音声モデルGPT-Realtime-2をAPIで公開した。音声エージェントが会話の流れの中で推論・行動できるようにし、単純な一問一答の枠組みを超えた新世代の音声AIを目指している。

同時リリースのストリーミングモデル

GPT-Realtime-2と同時に、2つのストリーミングモデルも追加された。

GPT-Realtime-Translate: 70以上の入力言語から13の出力言語へのリアルタイム音声翻訳
GPT-Realtime-Whisper: 発話と同時にテキストを生成するストリーミング音声文字起こし

音声AIのパラダイムシフト

GPT-Realtime-2は、割り込みへの対応や長い会話のコンテキスト維持、複雑なリクエストへのリアルタイム推論を実現する。以前のRealtime APIと比較して、コンテキストウィンドウも32Kから128Kに拡張された。

価格

GPT-Realtime-2のオーディオ入力トークン価格は$32/100万トークンで、APIですぐに利用可能だ。

AI X/Twitter Apr 18, 2026 1 min read

Grok STT API、25+言語と1時間$0.10のbatch価格でvoice API市場に参入

重要なのは、xAIがGrok Voiceのstackをstandalone STT/TTS APIに切り出し、batch $0.10/hour、streaming $0.20/hourという価格を出した点だ。25+ languages、diarization、word-level timestampsでenterprise transcriptionを正面から狙う。

#xai #grok #speech-to-text

AI Reddit 6d ago 1 min read

GPT-5.5、人間専門家12時間の企業ネットワーク攻撃シミュレーションを11分で完了

英国AI安全機関(AISI)の評価によると、OpenAIのGPT-5.5は人間専門家が最大12時間を要する複雑な多段階企業ネットワーク侵入シミュレーションをわずか11分、1.73ドルで完了した。AnthropicのClaude Mythosに続いて基準を達成した2番目のモデルとなり、AIサイバー能力の向上が業界全体のトレンドである事を示している。

#gpt-5.5 #cybersecurity #openai

AI Hacker News 4d ago 1 min read