xAI Grok Voice Think Fast 1.0 투입, τ-voice 1위와 25개 언어
Original: Introducing Grok Voice Think Fast 1.0. A state-of-the-art voice model built for complex, multi-step workflows with snappy responses and high accuracy. It takes the top spot on the Tau Voice Bench and handles real-world messiness like noise, accents, and interruptions better than any other model in the world. View original →
xAI는 4월 23일 원문 트윗으로 Grok Voice Think Fast 1.0을 올렸다. 핵심 문장은 복잡한 다단계 워크플로를 위한 음성 모델이라는 규정이다. 단순 대화 데모가 아니라는 뜻이다. 고객 지원, 전화 판매, 예약 변경처럼 음성 에이전트가 듣고, 추론하고, 도구를 호출하고, 구조화된 정보를 확인해야 하는 업무를 겨냥한다. xAI는 이 모델이 API에서 바로 동작한다고 적었다.
xAI 글에 따르면 이 모델은 τ-voice Bench 1위를 차지했다. 벤치는 잡음, 억양, 끼어들기, 턴 전환 같은 실제 통화 환경을 반영한다. xAI는 또 25개 이상 언어를 지원하고, 백그라운드 추론이 추가 지연 없이 돌아간다고 설명했다. 비교 대상으로는 Grok Voice Fast 1.0, Gemini 3.1 Flash Live, GPT Realtime 1.5가 제시됐다. 음성 모델 경쟁을 단순 자연스러움이 아니라 실전 통화 성능으로 끌고 가겠다는 신호다.
가장 눈에 띄는 수치는 Starlink 운영 사례다. 페이지에 따르면 Grok Voice는 전화 판매에서 20% 전환율을 만들고, 고객 지원에선 70% 해결률을 냈다. 한 에이전트는 28개의 도구를 묶어 수백 개 워크플로를 처리한다고도 적혀 있다. 이런 숫자가 중요한 이유는 화려한 데모보다 실전 업무 적합성을 더 잘 보여주기 때문이다. 통화 중 주소 확인, 교체 절차, 서비스 크레딧처럼 실수가 비용으로 이어지는 업무를 감당할 수 있느냐가 진짜 기준이다.
xAI 계정은 소비자용 Grok 기능과 기업용 API 소식을 함께 올리지만, 이번 건은 분명히 API 쪽에 선다. 다음으로 볼 것은 외부 검증이다. 벤치마크 우위와 Starlink식 운영 수치가 다른 고객사에서도 재현된다면 Grok Voice는 본격적인 음성 에이전트 후보로 올라선다. 반대로 수치가 xAI 생태계 안에서만 맴돌면, 강한 내부 사례집 이상의 의미를 얻기 어렵다.
Related Articles
Sakana AI가 여러 모델을 묶는 오케스트레이션을 연구 개념이 아니라 상용 API 상품으로 꺼냈다. 베타 수치만 보면 fugu-ultra는 SWEPro 54.2, GPQAD 95.1로 GPT 5.4 high와 Gemini 3.1 high를 각각 앞서는 구간을 만들었다.
r/singularity의 Opus 4.7 thread가 뜨거웠던 이유는 41.0%라는 숫자보다 그 숫자의 원인을 둘러싼 해석 싸움이었다. NYT Connections extended benchmark에서 Opus 4.6의 94.7%와 대비되자, community는 capability regression과 refusal tuning을 나눠 보려 했다.
r/LocalLLaMA가 Qwen3.6 release 자체보다 GGUF quant 선택과 CUDA 버그에 더 크게 반응했다. Unsloth의 benchmark post는 KLD, disk space, 4bit gibberish, CUDA 13.1/13.3 같은 실제 실행 조건을 전면에 올렸다.
Comments (0)
No comments yet. Be the first to comment!