Sakana AI、KAMEアーキテクチャ発表 — レイテンシなしでLLM知識をリアルタイム注入
音声AIの速度と知識の両立
従来の音声-to-音声(S2S) AIには根本的なトレードオフがある。直接S2Sは即座に応答できるが知識が浅い。カスケード方式は豊富な知識を持つが2.1秒の遅延が生じる。Sakana AIのKAME(亀)はこの課題を正面から解決する。
KAMEアーキテクチャ
KAMEはMoshiの3ストリーム設計(入力オーディオ・内部モノローグ・出力オーディオ)に第4の「オラクルストリーム」を追加する。フロントエンドS2Sモデルがユーザーの音声に即座に応答しながら、並行して中間転写をバックエンドLLMにストリーミングする。LLMのより詳細な応答はオラクルストリームを通じてリアルタイムでフロントエンドに注入される。
バックエンドモデルを交換してもフロントエンドの再訓練は不要。gpt-4.1-nanoで訓練したモデルが、claude-opus-4-1やgemini-2.5-flashでもそのまま動作する。
パフォーマンス
- MT-Benchスコア: 6.43(フルカスケードシステム相当)
- 応答レイテンシ: 直接S2Sと同等のほぼゼロ遅延
- パイプライン遅延: カスケード方式の2.1秒遅延を排除
訓練手法: Simulated Oracle Augmentation
Sakana AIは「シミュレーターLLM」と標準会話データセットを使い、様々な転写完成度レベルの合成オラクルシーケンスを生成することで訓練コストの問題を解決した。
出典: Sakana AI
Related Articles
元DeepMind主任研究員でAlphaGoの共同開発者であるデイビッド・シルバーが、人間データを使わず強化学習のみで知識を習得するAIを開発するIneffable Intelligenceを設立。510億ドル評価額の下、、11億ドルを調達した。
HNはレトロな会話ネタで終わらなかった。1931年以前のテキストだけで学習した13Bモデルが、汚染の少ない評価装置になりうること、そして現代知識なしでも単純なPython課題をこなす場面に強く反応している。
重要なのは、長文脈やedge-side agentを実際に回せるかどうかが結局kernel最適化で決まる場面が増えていることだ。QwenはFlashQLAがNVIDIA HopperでFLA Triton比の前方2〜3倍、逆伝播2倍を出したとしている。
Comments (0)
No comments yet. Be the first to comment!