OpenAI가 GPT-5급 추론 능력을 갖춘 실시간 음성 모델 GPT-Realtime-2를 API에 공개했다. 실시간 번역 모델 GPT-Realtime-Translate, 스트리밍 전사 모델 GPT-Realtime-Whisper도 함께 출시됐다.
#speech
RSS FeedSakana AI가 음성 AI의 레이턴시와 지식 품질을 동시에 해결하는 KAME(거북이) 아키텍처를 공개했다. 프론트엔드 S2S 모델과 백엔드 LLM을 탠덤으로 연결해 2.1초 파이프라인 지연 없이 MT-Bench 6.43점을 달성했다.
LocalLLaMA의 높은 반응은 분명했다. Mistral이 낮은 latency, multilingual 지원, open weights를 함께 내놓으며 여전히 닫혀 있던 speech layer에 실전형 선택지를 제시했기 때문이다.
LiveKit은 2026년 3월 19일 실제 사용자 interrupt와 backchannel·잡음을 구분하는 audio model을 학습했다고 밝혔다. 회사 블로그에 따르면 이 기능은 LiveKit Agents에 정식 제공되며, 500ms overlap speech 기준 86% precision과 100% recall을 기록했고 최신 Python·TypeScript agent SDK에서 기본 활성화된다.
Kitten TTS v0.8의 Show HN 글은 15M~80M ONNX 모델, 25MB급 배포 크기, CPU 중심 설계로 관심을 모았고, 실사용 품질과 데이터 출처에 대한 질문도 함께 끌어냈다.
Mistral은 Voxtral Realtime와 Voxtral Mini Transcribe V2를 공개하며 sub-200ms streaming transcription, 13개 언어 지원, realtime model의 open weights를 내놓았다. 동시에 Mistral Studio의 audio playground와 $0.003/min·$0.006/min pricing도 함께 제시했다.
2026년 3월 9일 LocalLLaMA에서는 Fish Audio S2가 fine-grained inline control, multilingual 지원, SGLang 기반 streaming stack을 함께 제시한 점이 주목을 받았다.
IBM은 2026년 3월 9일 Granite 4.0 1B Speech를 공개했다. 절반 수준의 파라미터로 이전 모델보다 더 높은 영어 전사 정확도, speculative decoding 기반 빠른 추론, 일본어를 포함한 다국어 지원을 제공한다고 밝혔다.
개발자 Nick Tikhonov가 STT → LLM → TTS 전체 파이프라인을 포함하고도 평균 400ms의 엔드투엔드 지연 시간을 달성한 음성 AI 에이전트를 처음부터 직접 구축한 방법을 공유했습니다.