LLM Reddit Feb 23, 2026 1 min read
スタートアップTaalasがLLMの重みとモデルアーキテクチャ全体をカスタムASICに直接焼き込み、ユーザーあたり毎秒17,000トークン以上、1ミリ秒未満の遅延を実現すると主張しています。Reddit r/singularityで814点を獲得しました。
スタートアップTaalasがLLMの重みとモデルアーキテクチャ全体をカスタムASICに直接焼き込み、ユーザーあたり毎秒17,000トークン以上、1ミリ秒未満の遅延を実現すると主張しています。Reddit r/singularityで814点を獲得しました。
スタートアップのTaalasが、Llama 3.1 8Bモデルのweightsをシリコンにエッチングした固定機能ASICチップを発表。毎秒17,000トークンを生成し、GPUベースのシステムより10倍高速で10倍安価、消費電力も10分の1です。
Hacker Newsで注目されたTaalasの発表は、モデル特化シリコンによる低遅延・低コスト推論を主張する内容。ハードワイヤードLlama 3.1 8Bで17K tokens/sec/ユーザーを掲げた。