Reddit의 논점은 공포보다 검증 가능성에 있었다. 마이크·스피커·압축을 통과해 명령이 얼마나 안정적으로 먹히는지가 핵심이다.
#audio
RSS Feed54점 Reddit post는 merged PR #19441을 통해 qwen3-omni-moe와 qwen3-asr support가 llama.cpp에 들어왔다고 알렸고, 댓글은 local multimodal과 ASR 실사용 기대를 드러냈다.
Mistral AI는 2026년 3월 26일 Voxtral TTS가 expressive speech, 9개 언어 지원, 낮은 latency, 쉬운 voice adaptation을 제공한다고 밝혔다. Mistral의 3월 23일 launch post는 4B-parameter 모델이 약 3초 reference audio로 custom voice adaptation을 수행하고, 약 70ms model latency와 최대 2분 native audio generation을 지원한다고 설명한다.
Mistral은 2026년 4월 2일 Voxtral 기반 transcription·speech generation과 Mistral Small 4 reasoning을 묶어 web-search-enabled speech-to-speech assistant를 약 150 lines의 code로 만들 수 있다고 밝혔다. 이 글은 단일 모델 공개보다 real-time audio agent를 위한 reference architecture 제시에 가깝다.
xAI는 2026년 3월 16일 Grok의 Text-to-Speech API가 공개됐다고 밝혔다. xAI 공식 voice 문서는 beta API가 5개 voice, inline speech tags, telephony-friendly codec, low-latency WebSocket streaming 모드를 지원한다고 설명한다.
Mistral은 Voxtral Realtime와 Voxtral Mini Transcribe V2를 공개하며 sub-200ms streaming transcription, 13개 언어 지원, realtime model의 open weights를 내놓았다. 동시에 Mistral Studio의 audio playground와 $0.003/min·$0.006/min pricing도 함께 제시했다.
2026년 3월 9일 LocalLLaMA에서는 Fish Audio S2가 fine-grained inline control, multilingual 지원, SGLang 기반 streaming stack을 함께 제시한 점이 주목을 받았다.