TaalasがLLMをチップに「印刷」: GPU比10倍高速なAI推論ASICを発表

LLMをシリコンに「印刷」する

スタートアップのTaalasが、Llama 3.1 8B（3/6ビット量子化）のweightsをシリコンに物理的に刻み込んだ固定機能ASICチップを発表しました。毎秒17,000トークン——A4用紙約30枚分のテキスト——を生成できます。Taalasによると、このチップはGPUベースの推論システムと比較して、速度は10倍、所有コストは10分の1、消費電力も10分の1です。

メモリウォール問題

従来のGPUベースのLLM推論は「メモリウォール」と呼ばれる根本的なボトルネックを抱えています。トークンを1つ生成するたびに、GPUはVRAMからレイヤーのweightsを繰り返しフェッチし、行列演算を実行し、中間結果を再びVRAMに書き戻す必要があります。Llama 3.1 8Bの32レイヤーすべてにわたってこのサイクルが繰り返されます。これは「フォン・ノイマンボトルネック」とも呼ばれます。

Taalasのアプローチ

Taalasはこの問題を根本から解決しました。Llama 3.1 8Bの32レイヤーすべてをチップ上に順次エッチングし、model weightsをトランジスタとして物理的に実装しています。入力が到着すると、ベクトルに変換されてLayer 1のトランジスタを流れ、電気信号が物理的な配線を通じて次のレイヤーへと伝播します。VRAMのフェッチは一切不要です。

また、4ビットデータを1つのトランジスタで保存・演算できる独自の「マジックマルチプライヤー」技術も開発したと主張しています。

制約と展望

このチップはゲームカートリッジのように1モデルしか実行できない固定機能ASICです。ただし、Taalasはベースチップに汎用ロジックゲートグリッドを設計し、特定モデルのマッピングには上位2つのマスクレイヤーのカスタマイズのみが必要です。Llama 3.1 8Bチップの開発には2ヶ月を要しましたが、カスタムシリコンの世界では非常に速いペースです。オンチップSRAMはKVキャッシュとLoRAアダプターに使用され、外部DRAM/HBMは一切不要です。このアーキテクチャが普及すれば、大規模GPUクラスターに依存しないエッジでの高効率AI推論が実現する可能性があります。

TaalasがLLMをチップに「印刷」: GPU比10倍高速なAI推論ASICを発表

LLMをシリコンに「印刷」する

メモリウォール問題

Taalasのアプローチ

制約と展望

Related Articles

Taalas: LLMをシリコンに焼き込んで毎秒17,000トークンを実現するスタートアップ

HNが食いついたI-DLM、Diffusion LLMは品質を捨てずに速くなれるのか

r/MachineLearning が追う TurboQuant for weights、4-bit weight quantization の実戦投入

Comments (0)

Leave a Comment

Related Articles

Taalas: LLMをシリコンに焼き込んで毎秒17,000トークンを実現するスタートアップ
LLM Reddit Feb 23, 2026 1 min read

HNが食いついたI-DLM、Diffusion LLMは品質を捨てずに速くなれるのか
LLM Hacker News Apr 15, 2026 1 min read

r/MachineLearning が追う TurboQuant for weights、4-bit weight quantization の実戦投入
LLM Reddit Mar 29, 2026 1 min read