Sakana AI KAME: LLM 지식을 실시간 주입하는 음성-대-음성 AI 아키텍처
음성 AI의 딜레마: 빠르거나, 똑똑하거나
기존 음성-대-음성(S2S) AI 시스템은 두 가지 선택지 앞에 선다. 직접 S2S 방식은 빠르지만 지식이 얕다. 캐스케이드 방식(음성→텍스트→LLM→음성)은 풍부한 지식을 제공하지만 2.1초 이상의 지연이 발생한다.
Sakana AI의 KAME(亀, 거북이)는 이 딜레마를 정면으로 해결한다.
KAME 아키텍처
KAME는 Moshi의 기존 3-스트림 설계(입력 오디오·내부 독백·출력 오디오)에 네 번째 스트림인 '오라클 스트림'을 추가한다. 프론트엔드 S2S 모델이 사용자 음성을 실시간으로 즉시 처리하는 동시에, 중간 전사본을 백엔드 LLM에 스트리밍한다. LLM의 응답은 오라클 스트림을 통해 프론트엔드로 전달된다.
백엔드 LLM 교체 시 프론트엔드 재훈련이 불필요하다. gpt-4.1-nano로 훈련했지만, claude-opus-4-1이나 gemini-2.5-flash로 교체해도 동일하게 작동한다.
성능
- MT-Bench 점수: 6.43 (캐스케이드 시스템 수준의 추론 성능)
- 응답 지연: 직접 S2S 수준의 거의 제로 지연
- 파이프라인 지연 제거: 기존 캐스케이드의 2.1초 지연 없음
훈련 기법: Simulated Oracle Augmentation
Sakana AI는 '시뮬레이터 LLM'과 표준 대화 데이터셋을 활용해 다양한 전사 완성도 수준의 합성 오라클 시퀀스를 생성하는 방식으로 훈련 비용 문제를 해결했다.
출처: Sakana AI
Related Articles
전 DeepMind 연구원 데이비드 실버가 인간 데이터 없이 강화학습만으로 범용 지식을 학습하는 AI를 개발하는 Ineffable Intelligence를 설립, 51억 달러 밸류에이션으로 11억 달러를 조달했다.
LocalLLaMA는 이 질문을 샤워실 잡담으로 넘기지 않았다. 스레드는 왜 오늘의 LLM이 잠재 벡터에 reasoning을 숨기지 않고, 여전히 언어 형태로 드러내는지에 대한 진짜 논쟁으로 번졌다.
HN은 복고풍 말투 장난감에서 멈추지 않았다. 1931년 이전 텍스트만으로 학습한 13B 모델이 오염 없는 평가판이 될 수 있고, 현대 지식 없이도 단순한 Python 문제를 푸는 장면이 더 큰 흥미를 만들었다.
Comments (0)
No comments yet. Be the first to comment!