OpenAI가 2026년 5월 7일 API를 통해 실시간 음성 AI 3종을 공개했다. GPT-5급 추론을 갖춘 GPT-Realtime-2, 70개 언어 실시간 번역, 스트리밍 전사 모델이 각각 출시됐다.
#api
RSS FeedAnthropic의 Claude Platform이 AWS에서 정식 제공되기 시작했다. AWS IAM 인증, CloudTrail 감사 로그, 단일 AWS 청구서를 지원하며 기존 AWS 약정에서 비용을 차감할 수 있다.
Google이 Gemini API 파일 검색 도구를 멀티모달로 확장했다. 이미지, 오디오, 동영상을 포함한 다양한 파일 유형에 대한 효율적인 RAG 시스템을 구축할 수 있게 됐다.
OpenAI가 GPT-5급 추론 능력을 갖춘 실시간 음성 모델 GPT-Realtime-2를 API에 공개했다. 실시간 번역 모델 GPT-Realtime-Translate, 스트리밍 전사 모델 GPT-Realtime-Whisper도 함께 출시됐다.
xAI가 최신 모델 Grok 4.3을 API에 공개했다. 에이전틱 도구 호출·명령어 이행 리더보드에서 1위를 차지했으며, 기업용 법률·금융 도메인에서도 최고 성능을 기록했다. 100만 토큰 컨텍스트, 입력 $1.25/M·출력 $2.50/M 가격으로 제공된다.
동일한 어드민 패널 작업을 비전 에이전트와 구조화된 API 에이전트로 비교한 결과, 비전 방식이 약 45배 비쌌다. 비전 에이전트는 상세 가이드 없이 작업 완료에도 실패했다.
xAI가 API를 통해 음성 복제 서비스 Voice Cloning을 정식 출시했다. 2분 이내에 개인 목소리를 복제하거나 28개 언어, 80개 이상의 사전 제작 음성에서 선택해 음성 에이전트·오디오북·게임 캐릭터에 즉시 적용할 수 있다.
HN은 GPT-5.5 출시 소식을 축하보다 검산으로 받았다. 첫 반응은 얼마나 똑똑한가보다 가격, 컨텍스트 구간, 그리고 코딩 태도가 정말 나아졌는가였다.
중요한 점은 주력 model이 이제 제품 시연이 아니라 실제 integration 대상이 됐다는 데 있다. OpenAI 개발자 계정은 retry 감소를 강조했고, 공식 release page는 1M context와 새 API 가격을 함께 적어 두었다.
xAI가 노리는 곳은 데모 음성 비서가 아니라 실제 업무용 음성 에이전트다. Grok Voice Think Fast 1.0은 τ-voice Bench 1위를 내세웠고, 25개 이상 언어 지원과 함께 Starlink 운영에서 20% 판매 전환, 70% 지원 해결률을 기록했다고 적었다.
Sakana AI가 여러 모델을 묶는 오케스트레이션을 연구 개념이 아니라 상용 API 상품으로 꺼냈다. 베타 수치만 보면 fugu-ultra는 SWEPro 54.2, GPQAD 95.1로 GPT 5.4 high와 Gemini 3.1 high를 각각 앞서는 구간을 만들었다.
왜 중요한가: xAI가 Grok Voice stack을 standalone STT/TTS API로 내며 batch $0.10/hour, streaming $0.20/hour 가격을 제시했다. 25+ languages, diarization, word-level timestamps는 call center와 meeting transcription 시장을 직접 겨냥한다.