Skip to content
부식 중

OpenAI, 실시간 음성 AI 3종 출시 — GPT-Realtime-2·번역·전사 모델 각각 공개

Read in other languages: 日本語
LLM May 13, 2026 By Insights AI 1 min read 14 views Source
This article is not available in your selected language. Showing the original version.

3종 모델 개요

OpenAI는 2026년 5월 7일 API를 통해 개발자가 새로운 음성 앱을 구축할 수 있는 실시간 오디오 모델 3종을 공개했다.

  • GPT-Realtime-2: GPT-5 수준의 추론 능력을 갖춘 첫 번째 실시간 음성 모델. 어려운 요청을 처리하고 도구를 호출하면서도 자연스러운 대화 흐름을 유지한다. Big Bench Audio 기준 이전 모델 대비 15.2% 높은 성능을 기록했다.
  • GPT-Realtime-Translate: 70개 이상의 입력 언어를 13개 출력 언어로 화자 속도에 맞춰 실시간 번역하는 모델이다.
  • GPT-Realtime-Whisper: 화자가 말하는 동시에 텍스트로 전사하는 스트리밍 음성-텍스트 변환 모델이다.

가격

GPT-Realtime-2(고품질)는 오디오 입력 100만 토큰당 32달러(캐시 입력 0.40달러), 출력 100만 토큰당 64달러다. GPT-Realtime-Translate는 분당 0.034달러, GPT-Realtime-Whisper는 분당 0.017달러에 제공된다.

의미

이번 출시는 실시간 음성 AI 에이전트 개발의 문턱을 낮추는 중요한 이정표다. GPT-Realtime-2의 GPT-5급 추론은 단순 음성 명령을 넘어 복잡한 멀티 스텝 작업을 음성으로 처리하는 앱 개발을 가능하게 한다. 자세한 내용은 OpenAI 공식 발표에서 확인할 수 있다.

Share: Long

Related Articles