Sakana AI KAME: LLM 지식을 실시간 주입하는 음성-대-음성 AI 아키텍처

음성 AI의 딜레마: 빠르거나, 똑똑하거나

기존 음성-대-음성(S2S) AI 시스템은 두 가지 선택지 앞에 선다. 직접 S2S 방식은 빠르지만 지식이 얕다. 캐스케이드 방식(음성→텍스트→LLM→음성)은 풍부한 지식을 제공하지만 2.1초 이상의 지연이 발생한다.

Sakana AI의 KAME(亀, 거북이)는 이 딜레마를 정면으로 해결한다.

KAME 아키텍처

KAME는 Moshi의 기존 3-스트림 설계(입력 오디오·내부 독백·출력 오디오)에 네 번째 스트림인 '오라클 스트림'을 추가한다. 프론트엔드 S2S 모델이 사용자 음성을 실시간으로 즉시 처리하는 동시에, 중간 전사본을 백엔드 LLM에 스트리밍한다. LLM의 응답은 오라클 스트림을 통해 프론트엔드로 전달된다.

백엔드 LLM 교체 시 프론트엔드 재훈련이 불필요하다. gpt-4.1-nano로 훈련했지만, claude-opus-4-1이나 gemini-2.5-flash로 교체해도 동일하게 작동한다.

성능

MT-Bench 점수: 6.43 (캐스케이드 시스템 수준의 추론 성능)
응답 지연: 직접 S2S 수준의 거의 제로 지연
파이프라인 지연 제거: 기존 캐스케이드의 2.1초 지연 없음

훈련 기법: Simulated Oracle Augmentation

Sakana AI는 '시뮬레이터 LLM'과 표준 대화 데이터셋을 활용해 다양한 전사 완성도 수준의 합성 오라클 시퀀스를 생성하는 방식으로 훈련 비용 문제를 해결했다.

출처: Sakana AI

LLM 2d ago 1 min read

AlphaGo 창시자 데이비드 실버, '슈퍼러너' AI 스타트업으로 유럽 최대 시드 11억 달러 유치

전 DeepMind 연구원 데이비드 실버가 인간 데이터 없이 강화학습만으로 범용 지식을 학습하는 AI를 개발하는 Ineffable Intelligence를 설립, 51억 달러 밸류에이션으로 11억 달러를 조달했다.

#research #funding #reinforcement-learning

LLM Reddit 5d ago 1 min read

LLM은 왜 벡터로 생각하지 않나, LocalLLaMA 140댓글이 모인 지점

LocalLLaMA는 이 질문을 샤워실 잡담으로 넘기지 않았다. 스레드는 왜 오늘의 LLM이 잠재 벡터에 reasoning을 숨기지 않고, 여전히 언어 형태로 드러내는지에 대한 진짜 논쟁으로 번졌다.

#llm #reasoning #latent-space

LLM Hacker News Apr 28, 2026 1 min read

1930년대 LLM Talkie, HN이 꽂힌 건 복고 말투보다 오염 없는 일반화 실험

HN은 복고풍 말투 장난감에서 멈추지 않았다. 1931년 이전 텍스트만으로 학습한 13B 모델이 오염 없는 평가판이 될 수 있고, 현대 지식 없이도 단순한 Python 문제를 푸는 장면이 더 큰 흥미를 만들었다.

#talkie #vintage-llm #model-evals