TaalasがLLMをチップに「印刷」: GPU比10倍高速なAI推論ASICを発表
Original: How Taalas "prints" LLM onto a chip? View original →
LLMをシリコンに「印刷」する
スタートアップのTaalasが、Llama 3.1 8B(3/6ビット量子化)のweightsをシリコンに物理的に刻み込んだ固定機能ASICチップを発表しました。毎秒17,000トークン——A4用紙約30枚分のテキスト——を生成できます。Taalasによると、このチップはGPUベースの推論システムと比較して、速度は10倍、所有コストは10分の1、消費電力も10分の1です。
メモリウォール問題
従来のGPUベースのLLM推論は「メモリウォール」と呼ばれる根本的なボトルネックを抱えています。トークンを1つ生成するたびに、GPUはVRAMからレイヤーのweightsを繰り返しフェッチし、行列演算を実行し、中間結果を再びVRAMに書き戻す必要があります。Llama 3.1 8Bの32レイヤーすべてにわたってこのサイクルが繰り返されます。これは「フォン・ノイマンボトルネック」とも呼ばれます。
Taalasのアプローチ
Taalasはこの問題を根本から解決しました。Llama 3.1 8Bの32レイヤーすべてをチップ上に順次エッチングし、model weightsをトランジスタとして物理的に実装しています。入力が到着すると、ベクトルに変換されてLayer 1のトランジスタを流れ、電気信号が物理的な配線を通じて次のレイヤーへと伝播します。VRAMのフェッチは一切不要です。
また、4ビットデータを1つのトランジスタで保存・演算できる独自の「マジックマルチプライヤー」技術も開発したと主張しています。
制約と展望
このチップはゲームカートリッジのように1モデルしか実行できない固定機能ASICです。ただし、Taalasはベースチップに汎用ロジックゲートグリッドを設計し、特定モデルのマッピングには上位2つのマスクレイヤーのカスタマイズのみが必要です。Llama 3.1 8Bチップの開発には2ヶ月を要しましたが、カスタムシリコンの世界では非常に速いペースです。オンチップSRAMはKVキャッシュとLoRAアダプターに使用され、外部DRAM/HBMは一切不要です。このアーキテクチャが普及すれば、大規模GPUクラスターに依存しないエッジでの高効率AI推論が実現する可能性があります。
Related Articles
スタートアップTaalasがLLMの重みとモデルアーキテクチャ全体をカスタムASICに直接焼き込み、ユーザーあたり毎秒17,000トークン以上、1ミリ秒未満の遅延を実現すると主張しています。Reddit r/singularityで814点を獲得しました。
HNでは「Diffusionでも品質を落とさずに済むのでは」という一点にすぐ火が付いた。I-DLMは並列寄りの生成速度とAR級の品質を両立できると主張していて、その話が実際のinference stackで通るのかまで議論が広がった。
r/MachineLearning の新しい投稿が、TurboQuant を KV cache の話題から weight compression へ押し進めた。GitHub 実装は low-bit LLM inference の drop-in path を狙う。
Comments (0)
No comments yet. Be the first to comment!