Sakana AI、KAMEアーキテクチャ発表 — レイテンシなしでLLM知識をリアルタイム注入

Read in other languages: 한국어English
LLM May 5, 2026 By Insights AI 1 min read Source

音声AIの速度と知識の両立

従来の音声-to-音声(S2S) AIには根本的なトレードオフがある。直接S2Sは即座に応答できるが知識が浅い。カスケード方式は豊富な知識を持つが2.1秒の遅延が生じる。Sakana AIのKAME(亀)はこの課題を正面から解決する。

KAMEアーキテクチャ

KAMEはMoshiの3ストリーム設計(入力オーディオ・内部モノローグ・出力オーディオ)に第4の「オラクルストリーム」を追加する。フロントエンドS2Sモデルがユーザーの音声に即座に応答しながら、並行して中間転写をバックエンドLLMにストリーミングする。LLMのより詳細な応答はオラクルストリームを通じてリアルタイムでフロントエンドに注入される。

バックエンドモデルを交換してもフロントエンドの再訓練は不要。gpt-4.1-nanoで訓練したモデルが、claude-opus-4-1やgemini-2.5-flashでもそのまま動作する。

パフォーマンス

  • MT-Benchスコア: 6.43(フルカスケードシステム相当)
  • 応答レイテンシ: 直接S2Sと同等のほぼゼロ遅延
  • パイプライン遅延: カスケード方式の2.1秒遅延を排除

訓練手法: Simulated Oracle Augmentation

Sakana AIは「シミュレーターLLM」と標準会話データセットを使い、様々な転写完成度レベルの合成オラクルシーケンスを生成することで訓練コストの問題を解決した。

出典: Sakana AI

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment