AI X/Twitter Apr 18, 2026 1 min read
왜 중요한가: xAI가 Grok Voice stack을 standalone STT/TTS API로 내며 batch $0.10/hour, streaming $0.20/hour 가격을 제시했다. 25+ languages, diarization, word-level timestamps는 call center와 meeting transcription 시장을 직접 겨냥한다.
왜 중요한가: xAI가 Grok Voice stack을 standalone STT/TTS API로 내며 batch $0.10/hour, streaming $0.20/hour 가격을 제시했다. 25+ languages, diarization, word-level timestamps는 call center와 meeting transcription 시장을 직접 겨냥한다.
LocalLLaMA에서는 llama-server 안으로 음성이 들어왔다는 점 자체에 반응이 컸다. 별도 Whisper 파이프라인 없이 같은 로컬 스택에서 speech workflow를 묶을 수 있다는 기대와, 아직 긴 오디오는 불안정하다는 초기 보고가 함께 올라왔다.
LocalLLaMA가 이 thread를 크게 띄운 이유는 local agent stack에서 가장 귀찮은 별도 음성 파이프라인 하나를 치울 수 있다는 기대 때문이다. 게시물은 llama.cpp의 llama-server가 Gemma-4 E2A와 E4A 모델로 STT를 처리할 수 있게 됐다고 전했고, 댓글은 곧바로 Whisper와 Voxtral 비교로 넘어갔다.
440포인트를 모은 Show HN 스레드는 Control 키를 누르는 동안 녹음하고 완전히 로컬에서 전사하는 메뉴바 macOS 앱 Ghost Pepper를 에이전트 도구 흐름의 일부로 끌어올렸다.