Taalas: LLMをシリコンに焼き込んで毎秒17,000トークンを実現するスタートアップ

LLM全体をシリコンに焼き込む

スタートアップ Taalas が、AI推論の根本的なパラダイム転換を提案しています。通常のGPUやクラウドクラスターでLLMの重みを実行するのではなく、モデル全体（重みとアーキテクチャの両方）をカスタムASICに直接焼き込むというアプローチです。HBMは不要で、すべてが1つのチップ上に存在します。

主な主張

ユーザーあたり毎秒17,000トークン以上の処理
1ミリ秒未満の遅延
クラウド推論と比べて20倍低コスト
モデル選定からカスタムチップまで60日以内

リスクとトレードオフ

モデルアーキテクチャが数週間ごとに進化するAI時代に、特定のモデルをシリコンに固定することは大きなリスクを伴います。TaalasはこのトレードオフをTaalasが認識した上で、このアプローチが純粋な知性よりも遅延が重要な分野（リアルタイム音声モデル、アバター生成、コンピュータビジョンなど）において有利であると説明しています。ChatJimmy.aiでLlama 3.1 8Bのデモを実際に試すことができます。