OpenAI, GPT-5 수준 추론 갖춘 실시간 음성 API 3종 정식 출시
OpenAI가 5월 7일 세 가지 실시간 음성 모델을 Realtime API를 통해 정식 제공하기 시작했다. GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper가 그 주인공이다. Realtime API는 이번을 기점으로 베타를 종료하고 일반 제공(GA)으로 전환됐다.
GPT-Realtime-2: GPT-5 수준 음성 에이전트
GPT-Realtime-2는 GPT-5급 추론 능력을 갖춘 음성 에이전트 모델이다. 컨텍스트 윈도우가 3만 2,000토큰에서 12만 8,000토큰으로 4배 확장됐다. 중간에 말이 끊겨도 자연스럽게 이어가며 도구 호출, 장시간 대화 유지가 가능하다.
GPT-Realtime-Translate: 70개 언어 즉석 번역
70개 이상 언어 입력을 13개 출력 언어로 스트리밍 번역한다. 분당 0.034달러에 제공된다. 다국어 고객 지원이나 실시간 통역 서비스에 즉시 적용할 수 있는 API다.
GPT-Realtime-Whisper: 실시간 음성 전사
말하는 즉시 스트리밍 방식으로 텍스트를 변환한다. 분당 0.017달러로 세 모델 중 가장 저렴하다. 자막 생성이나 회의록 작성 자동화 용도에 적합하다.
자세한 내용은 OpenAI 공식 발표에서 확인하라.
Related Articles
OpenAI가 5월 5일 GPT-5.5 Instant를 ChatGPT 무료 포함 전 사용자의 기본 모델로 교체했다. 이전 대화·첨부파일·Gmail 기록을 바탕으로 더 개인화된 답변을 제공하며, API에서는 chat-latest 엔드포인트로 접근할 수 있다.
OpenAI가 5월 5일 GPT-5.5 Instant를 출시해 ChatGPT 기본 모델을 교체했다. 고위험 프롬프트 환각 오류 52.5% 감소, 과거 대화·파일·Gmail을 참조하는 개인화 검색 기능이 추가됐다.
OpenAI가 GPT-5.5 Instant를 ChatGPT의 새 기본 모델로 배포했다. 의료·법률·금융 등 고위험 쿼리에서 환각이 52.5% 감소했고, Gmail 기반 개인화와 메모리 출처 표시 기능도 추가됐다.
Comments (0)
No comments yet. Be the first to comment!