#speech

AI X/Twitter May 8, 2026 1 min read

OpenAI, GPT-5급 음성 추론 모델 GPT-Realtime-2 API 공개

OpenAI가 GPT-5급 추론 능력을 갖춘 실시간 음성 모델 GPT-Realtime-2를 API에 공개했다. 실시간 번역 모델 GPT-Realtime-Translate, 스트리밍 전사 모델 GPT-Realtime-Whisper도 함께 출시됐다.

#openai #gpt-realtime #voice-ai

LLM May 5, 2026 1 min read

Sakana AI KAME: LLM 지식을 실시간 주입하는 음성-대-음성 AI 아키텍처

Sakana AI가 음성 AI의 레이턴시와 지식 품질을 동시에 해결하는 KAME(거북이) 아키텍처를 공개했다. 프론트엔드 S2S 모델과 백엔드 LLM을 탠덤으로 연결해 2.1초 파이프라인 지연 없이 MT-Bench 6.43점을 달성했다.

#sakana-ai #research #open-source

AI Reddit Mar 27, 2026 1 min read

Mistral Voxtral TTS, open-weight speech generation을 다시 local AI stack의 중심으로

LocalLLaMA의 높은 반응은 분명했다. Mistral이 낮은 latency, multilingual 지원, open weights를 함께 내놓으며 여전히 닫혀 있던 speech layer에 실전형 선택지를 제시했기 때문이다.

#mistral #tts #speech

AI X/Twitter Mar 23, 2026 2 min read

LiveKit, voice agent용 Adaptive Interruption Handling 정식 제공… VAD 오탐 문제 완화

LiveKit은 2026년 3월 19일 실제 사용자 interrupt와 backchannel·잡음을 구분하는 audio model을 학습했다고 밝혔다. 회사 블로그에 따르면 이 기능은 LiveKit Agents에 정식 제공되며, 500ms overlap speech 기준 86% precision과 100% recall을 기록했고 최신 Python·TypeScript agent SDK에서 기본 활성화된다.

#livekit #voice-agents #speech

AI Hacker News Mar 20, 2026 1 min read

Hacker News가 주목한 초소형 CPU용 TTS, Kitten TTS v0.8

Kitten TTS v0.8의 Show HN 글은 15M~80M ONNX 모델, 25MB급 배포 크기, CPU 중심 설계로 관심을 모았고, 실사용 품질과 데이터 출처에 대한 질문도 함께 끌어냈다.

#tts #onnx #edge-ai

AI Mar 15, 2026 2 min read

Mistral, Voxtral Realtime와 Voxtral Mini Transcribe V2로 speech stack 확장

Mistral은 Voxtral Realtime와 Voxtral Mini Transcribe V2를 공개하며 sub-200ms streaming transcription, 13개 언어 지원, realtime model의 open weights를 내놓았다. 동시에 Mistral Studio의 audio playground와 $0.003/min·$0.006/min pricing도 함께 제시했다.

#mistral #speech #transcription

AI Reddit Mar 15, 2026 1 min read

Fish Audio S2, inline 감정 제어와 빠른 스트리밍을 결합한 오픈 TTS로 주목

2026년 3월 9일 LocalLLaMA에서는 Fish Audio S2가 fine-grained inline control, multilingual 지원, SGLang 기반 streaming stack을 함께 제시한 점이 주목을 받았다.

#tts #speech #audio

LLM Mar 14, 2026 2 min read

IBM Granite 4.0 1B Speech 공개... 소형 다국어 음성 모델로 edge 배치 겨냥

IBM은 2026년 3월 9일 Granite 4.0 1B Speech를 공개했다. 절반 수준의 파라미터로 이전 모델보다 더 높은 영어 전사 정확도, speculative decoding 기반 빠른 추론, 일본어를 포함한 다국어 지원을 제공한다고 밝혔다.

#ibm #granite #speech

AI Hacker News Mar 3, 2026 1 min read

Show HN: 500ms 미만 응답 지연의 음성 AI 에이전트를 직접 구축했습니다

개발자 Nick Tikhonov가 STT → LLM → TTS 전체 파이프라인을 포함하고도 평균 400ms의 엔드투엔드 지연 시간을 달성한 음성 AI 에이전트를 처음부터 직접 구축한 방법을 공유했습니다.

#voice-agent #ai #llm