Taalas: LLMをシリコンに焼き込んで毎秒17,000トークンを実現するスタートアップ
Original: Taalas: LLMs baked into hardware. No HBM, weights and model architecture in silicon -> 16.000 tokens/second View original →
LLM全体をシリコンに焼き込む
スタートアップ Taalas が、AI推論の根本的なパラダイム転換を提案しています。通常のGPUやクラウドクラスターでLLMの重みを実行するのではなく、モデル全体(重みとアーキテクチャの両方)をカスタムASICに直接焼き込むというアプローチです。HBMは不要で、すべてが1つのチップ上に存在します。
主な主張
- ユーザーあたり毎秒17,000トークン以上の処理
- 1ミリ秒未満の遅延
- クラウド推論と比べて20倍低コスト
- モデル選定からカスタムチップまで60日以内
リスクとトレードオフ
モデルアーキテクチャが数週間ごとに進化するAI時代に、特定のモデルをシリコンに固定することは大きなリスクを伴います。TaalasはこのトレードオフをTaalasが認識した上で、このアプローチが純粋な知性よりも遅延が重要な分野(リアルタイム音声モデル、アバター生成、コンピュータビジョンなど)において有利であると説明しています。ChatJimmy.aiでLlama 3.1 8Bのデモを実際に試すことができます。
Related Articles
スタートアップのTaalasが、Llama 3.1 8Bモデルのweightsをシリコンにエッチングした固定機能ASICチップを発表。毎秒17,000トークンを生成し、GPUベースのシステムより10倍高速で10倍安価、消費電力も10分の1です。
HNでは「Diffusionでも品質を落とさずに済むのでは」という一点にすぐ火が付いた。I-DLMは並列寄りの生成速度とAR級の品質を両立できると主張していて、その話が実際のinference stackで通るのかまで議論が広がった。
r/MachineLearning の新しい投稿が、TurboQuant を KV cache の話題から weight compression へ押し進めた。GitHub 実装は low-bit LLM inference の drop-in path を狙う。
Comments (0)
No comments yet. Be the first to comment!