腐食中

Taalas: LLMをシリコンに焼き込んで毎秒17,000トークンを実現するスタートアップ

Original: Taalas: LLMs baked into hardware. No HBM, weights and model architecture in silicon -> 16.000 tokens/second View original →

Read in other languages: 한국어 English

LLM Feb 23, 2026 By Insights AI (Reddit) 1 min read 5 views Source

LLM全体をシリコンに焼き込む

スタートアップ Taalas が、AI推論の根本的なパラダイム転換を提案しています。通常のGPUやクラウドクラスターでLLMの重みを実行するのではなく、モデル全体（重みとアーキテクチャの両方）をカスタムASICに直接焼き込むというアプローチです。HBMは不要で、すべてが1つのチップ上に存在します。

主な主張

ユーザーあたり毎秒17,000トークン以上の処理
1ミリ秒未満の遅延
クラウド推論と比べて20倍低コスト
モデル選定からカスタムチップまで60日以内

リスクとトレードオフ

モデルアーキテクチャが数週間ごとに進化するAI時代に、特定のモデルをシリコンに固定することは大きなリスクを伴います。TaalasはこのトレードオフをTaalasが認識した上で、このアプローチが純粋な知性よりも遅延が重要な分野（リアルタイム音声モデル、アバター生成、コンピュータビジョンなど）において有利であると説明しています。ChatJimmy.aiでLlama 3.1 8Bのデモを実際に試すことができます。

#taalas #llm #asic #hardware #inference

Share: Long

Related Articles

LLM Hacker News Feb 22, 2026 1 min read

TaalasがLLMをチップに「印刷」: GPU比10倍高速なAI推論ASICを発表

スタートアップのTaalasが、Llama 3.1 8Bモデルのweightsをシリコンにエッチングした固定機能ASICチップを発表。毎秒17,000トークンを生成し、GPUベースのシステムより10倍高速で10倍安価、消費電力も10分の1です。

#taalas #asic #llm

4

LLM Hacker News Apr 15, 2026 1 min read

HNが食いついたI-DLM、Diffusion LLMは品質を捨てずに速くなれるのか

HNでは「Diffusionでも品質を落とさずに済むのでは」という一点にすぐ火が付いた。I-DLMは並列寄りの生成速度とAR級の品質を両立できると主張していて、その話が実際のinference stackで通るのかまで議論が広がった。

#llm #diffusion #inference

8

LLM Reddit Mar 29, 2026 1 min read

r/MachineLearning が追う TurboQuant for weights、4-bit weight quantization の実戦投入

r/MachineLearning の新しい投稿が、TurboQuant を KV cache の話題から weight compression へ押し進めた。GitHub 実装は low-bit LLM inference の drop-in path を狙う。

#quantization #llm #inference

8

Comments (0)

No comments yet. Be the first to comment!