Taalas: LLMをシリコンに焼き込んで毎秒17,000トークンを実現するスタートアップ
Original: Taalas: LLMs baked into hardware. No HBM, weights and model architecture in silicon -> 16.000 tokens/second View original →
LLM全体をシリコンに焼き込む
スタートアップ Taalas が、AI推論の根本的なパラダイム転換を提案しています。通常のGPUやクラウドクラスターでLLMの重みを実行するのではなく、モデル全体(重みとアーキテクチャの両方)をカスタムASICに直接焼き込むというアプローチです。HBMは不要で、すべてが1つのチップ上に存在します。
主な主張
- ユーザーあたり毎秒17,000トークン以上の処理
- 1ミリ秒未満の遅延
- クラウド推論と比べて20倍低コスト
- モデル選定からカスタムチップまで60日以内
リスクとトレードオフ
モデルアーキテクチャが数週間ごとに進化するAI時代に、特定のモデルをシリコンに固定することは大きなリスクを伴います。TaalasはこのトレードオフをTaalasが認識した上で、このアプローチが純粋な知性よりも遅延が重要な分野(リアルタイム音声モデル、アバター生成、コンピュータビジョンなど)において有利であると説明しています。ChatJimmy.aiでLlama 3.1 8Bのデモを実際に試すことができます。
Related Articles
スタートアップのTaalasが、Llama 3.1 8Bモデルのweightsをシリコンにエッチングした固定機能ASICチップを発表。毎秒17,000トークンを生成し、GPUベースのシステムより10倍高速で10倍安価、消費電力も10分の1です。
AI研究者アンドレイ・カルパシーがLLM時代の核心的な技術課題として、メモリと演算資源の最適な組み合わせを提示した。高速だが容量の小さいオンチップSRAMと、大容量だが低速なオフチップDRAMのトレードオフを解決することが、現在最も知的報酬の高い課題だと強調した。
Hacker Newsで注目されたTaalasの発表は、モデル特化シリコンによる低遅延・低コスト推論を主張する内容。ハードワイヤードLlama 3.1 8Bで17K tokens/sec/ユーザーを掲げた。
Comments (0)
No comments yet. Be the first to comment!