TaalasがLLMをチップに「印刷」: GPU比10倍高速なAI推論ASICを発表
Original: How Taalas "prints" LLM onto a chip? View original →
LLMをシリコンに「印刷」する
スタートアップのTaalasが、Llama 3.1 8B(3/6ビット量子化)のweightsをシリコンに物理的に刻み込んだ固定機能ASICチップを発表しました。毎秒17,000トークン——A4用紙約30枚分のテキスト——を生成できます。Taalasによると、このチップはGPUベースの推論システムと比較して、速度は10倍、所有コストは10分の1、消費電力も10分の1です。
メモリウォール問題
従来のGPUベースのLLM推論は「メモリウォール」と呼ばれる根本的なボトルネックを抱えています。トークンを1つ生成するたびに、GPUはVRAMからレイヤーのweightsを繰り返しフェッチし、行列演算を実行し、中間結果を再びVRAMに書き戻す必要があります。Llama 3.1 8Bの32レイヤーすべてにわたってこのサイクルが繰り返されます。これは「フォン・ノイマンボトルネック」とも呼ばれます。
Taalasのアプローチ
Taalasはこの問題を根本から解決しました。Llama 3.1 8Bの32レイヤーすべてをチップ上に順次エッチングし、model weightsをトランジスタとして物理的に実装しています。入力が到着すると、ベクトルに変換されてLayer 1のトランジスタを流れ、電気信号が物理的な配線を通じて次のレイヤーへと伝播します。VRAMのフェッチは一切不要です。
また、4ビットデータを1つのトランジスタで保存・演算できる独自の「マジックマルチプライヤー」技術も開発したと主張しています。
制約と展望
このチップはゲームカートリッジのように1モデルしか実行できない固定機能ASICです。ただし、Taalasはベースチップに汎用ロジックゲートグリッドを設計し、特定モデルのマッピングには上位2つのマスクレイヤーのカスタマイズのみが必要です。Llama 3.1 8Bチップの開発には2ヶ月を要しましたが、カスタムシリコンの世界では非常に速いペースです。オンチップSRAMはKVキャッシュとLoRAアダプターに使用され、外部DRAM/HBMは一切不要です。このアーキテクチャが普及すれば、大規模GPUクラスターに依存しないエッジでの高効率AI推論が実現する可能性があります。
Related Articles
スタートアップTaalasがLLMの重みとモデルアーキテクチャ全体をカスタムASICに直接焼き込み、ユーザーあたり毎秒17,000トークン以上、1ミリ秒未満の遅延を実現すると主張しています。Reddit r/singularityで814点を獲得しました。
AI研究者アンドレイ・カルパシーがLLM時代の核心的な技術課題として、メモリと演算資源の最適な組み合わせを提示した。高速だが容量の小さいオンチップSRAMと、大容量だが低速なオフチップDRAMのトレードオフを解決することが、現在最も知的報酬の高い課題だと強調した。
Hacker Newsで注目されたTaalasの発表は、モデル特化シリコンによる低遅延・低コスト推論を主張する内容。ハードワイヤードLlama 3.1 8Bで17K tokens/sec/ユーザーを掲げた。
Comments (0)
No comments yet. Be the first to comment!