Sakana AI KAME: LLM 지식을 실시간 주입하는 음성-대-음성 AI 아키텍처

Read in other languages: English日本語
LLM May 5, 2026 By Insights AI 1 min read Source

음성 AI의 딜레마: 빠르거나, 똑똑하거나

기존 음성-대-음성(S2S) AI 시스템은 두 가지 선택지 앞에 선다. 직접 S2S 방식은 빠르지만 지식이 얕다. 캐스케이드 방식(음성→텍스트→LLM→음성)은 풍부한 지식을 제공하지만 2.1초 이상의 지연이 발생한다.

Sakana AI의 KAME(亀, 거북이)는 이 딜레마를 정면으로 해결한다.

KAME 아키텍처

KAME는 Moshi의 기존 3-스트림 설계(입력 오디오·내부 독백·출력 오디오)에 네 번째 스트림인 '오라클 스트림'을 추가한다. 프론트엔드 S2S 모델이 사용자 음성을 실시간으로 즉시 처리하는 동시에, 중간 전사본을 백엔드 LLM에 스트리밍한다. LLM의 응답은 오라클 스트림을 통해 프론트엔드로 전달된다.

백엔드 LLM 교체 시 프론트엔드 재훈련이 불필요하다. gpt-4.1-nano로 훈련했지만, claude-opus-4-1이나 gemini-2.5-flash로 교체해도 동일하게 작동한다.

성능

  • MT-Bench 점수: 6.43 (캐스케이드 시스템 수준의 추론 성능)
  • 응답 지연: 직접 S2S 수준의 거의 제로 지연
  • 파이프라인 지연 제거: 기존 캐스케이드의 2.1초 지연 없음

훈련 기법: Simulated Oracle Augmentation

Sakana AI는 '시뮬레이터 LLM'과 표준 대화 데이터셋을 활용해 다양한 전사 완성도 수준의 합성 오라클 시퀀스를 생성하는 방식으로 훈련 비용 문제를 해결했다.

출처: Sakana AI

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment