OpenAIは2026年5月7日、APIを通じてリアルタイム音声AIモデル3種を公開した。GPT-5クラスの推論を備えたGPT-Realtime-2、70言語以上のリアルタイム翻訳モデル、ストリーミング文字起こしモデルが含まれる。
#api
RSS FeedAnthropicのClaude PlatformがAWSで正式に利用可能になった。AWS IAM認証、CloudTrail監査ログ、単一のAWS請求書への統合をサポートし、既存のAWSコミットメントから費用を差し引くことができる。
GoogleがGemini APIのファイル検索ツールをアップデートし、画像・音声・動画を含むマルチモーダルコンテンツ対応のRAGシステム構築が可能になった。
OpenAIがGPT-5クラスの推論能力を備えたリアルタイム音声モデル「GPT-Realtime-2」をAPIで公開した。リアルタイム翻訳モデル「GPT-Realtime-Translate」とストリーミング文字起こしモデル「GPT-Realtime-Whisper」も同時リリースされた。
xAIがGrok 4.3をAPIでリリースした。エージェンティックなツール呼び出しと指示追従のリーダーボードで首位を獲得し、法律・金融などの企業ドメインでも1位を記録。100万トークンのコンテキストウィンドウを備え、入力$1.25/M・出力$2.50/Mで提供される。
同一の管理画面タスクをビジョンエージェントとAPIエージェントで比較したところ、ビジョン方式は約45倍高コストで、詳細なウォークスルーなしにはタスク完了も不可能だった。
xAIが自社APIを通じてVoice Cloningを正式リリース。短い音声録音から2分以内にカスタムボイスを作成できるほか、28言語・80種以上の事前構築済み音声ライブラリからも選択できる。
HNはGPT-5.5を祝賀ムードより先に検算モードで迎えた。最初に問われたのは、どれだけ賢いかより、価格とコンテキスト帯、そしてコーディング時の振る舞いが本当に改善したのかだった。
重要なのは、旗艦modelが製品デモから実装対象へ変わったことだ。OpenAIのdeveloper accountはretry削減を強調し、公式release pageは1M contextと新しいAPI pricingを示している。
xAIが狙うのは会話デモではなく実務向け音声エージェントだ。Grok Voice Think Fast 1.0はτ-voice Bench首位を掲げ、25言語超に対応し、Starlink運用では販売転換率20%、サポート解決率70%を出したとしている。
Sakana AIは、複数モデルの協調そのものを商用APIとして売り出し始めた。β公開時点の表では fugu-ultra が GPQAD 95.1、SWE-Pro 54.2 を出し、GPT 5.4 high や Gemini 3.1 high と真っ向から比べにいっている。
重要なのは、xAIがGrok Voiceのstackをstandalone STT/TTS APIに切り出し、batch $0.10/hour、streaming $0.20/hourという価格を出した点だ。25+ languages、diarization、word-level timestampsでenterprise transcriptionを正面から狙う。