AI X/Twitter Apr 18, 2026 1 min read
重要なのは、xAIがGrok Voiceのstackをstandalone STT/TTS APIに切り出し、batch $0.10/hour、streaming $0.20/hourという価格を出した点だ。25+ languages、diarization、word-level timestampsでenterprise transcriptionを正面から狙う。
重要なのは、xAIがGrok Voiceのstackをstandalone STT/TTS APIに切り出し、batch $0.10/hour、streaming $0.20/hourという価格を出した点だ。25+ languages、diarization、word-level timestampsでenterprise transcriptionを正面から狙う。
LocalLLaMAが反応したのは、audioがllama-serverの中に入ってきたことでlocal speech workflowが一段すっきりしそうだからだ。コメントは、Whisperを別で立てなくて済む期待と、長いaudioではまだ不安定だという初期QAが同時に並ぶ流れになった。
LocalLLaMAでこのthreadが伸びたのは、local agent 構成から別建ての音声パイプラインを一つ減らせる期待があるからだ。投稿では llama-server が Gemma-4 E2A と E4A で STT を扱えるようになったとされ、comment はすぐに Whisper や Voxtral との実用比較へ進んだ。
440ポイントを集めたShow HNスレッドは、Control長押しで録音し完全ローカルで文字起こしするmenu bar macOSアプリ Ghost Pepper を、agent tooling の文脈へ押し上げた。