Microsoft Researchは、tiny language modelsを用いた推論拡張の新成果を公表した。2-bit量子化とternary weight設計、最大8倍高速化・4倍メモリ削減という効率指標を前面に出し、edge実装の実用性を訴求している。
#inference
NVIDIA AI Developerは、SGLangとの協業でDeepSeek R1推論がGB300 NVL72上でH200比最大25倍高速化したと投稿した。さらにGB200 NVL72でも数か月で8倍改善したとしている。
Show HNのTimberは、ツリーベースMLモデルを依存なしC99成果物に変換し、約2μs遅延とPython比最大336倍の高速化を掲げる。
AI研究者アンドレイ・カルパシーがLLM時代の核心的な技術課題として、メモリと演算資源の最適な組み合わせを提示した。高速だが容量の小さいオンチップSRAMと、大容量だが低速なオフチップDRAMのトレードオフを解決することが、現在最も知的報酬の高い課題だと強調した。
スタートアップTaalasがLLMの重みとモデルアーキテクチャ全体をカスタムASICに直接焼き込み、ユーザーあたり毎秒17,000トークン以上、1ミリ秒未満の遅延を実現すると主張しています。Reddit r/singularityで814点を獲得しました。
スタートアップのTaalasが、Llama 3.1 8Bモデルのweightsをシリコンにエッチングした固定機能ASICチップを発表。毎秒17,000トークンを生成し、GPUベースのシステムより10倍高速で10倍安価、消費電力も10分の1です。
スタートアップTaalasがLLMのウェイトとアーキテクチャをシリコンチップに直接刻み込む急進的なアプローチを公開。Llama 3.1 8BのデモでHBM不要のまま毎秒16,000トークンを達成しましたが、モデルアーキテクチャの急速な進化というリスクがあります。
CPU RAMを完全にバイパスし、NVMe SSDからGPUへ直接ウェイトをストリーミングすることで、単体の消費者向けGPU(RTX 3090)でLlama 3.1 70Bを動作させるオープンソースプロジェクト「ntransformer」が公開されました。
Hacker Newsで注目されたTaalasの発表は、モデル特化シリコンによる低遅延・低コスト推論を主張する内容。ハードワイヤードLlama 3.1 8Bで17K tokens/sec/ユーザーを掲げた。
Microsoftは2026-01-26にMaia 200(コードネームBraga)を発表した。CopilotおよびAzure AIの一部ワークロードで、Maia 100比最大1.7倍の性能向上を示した。
NVIDIAは2026年2月12日、主要推論プロバイダーがBlackwell上のopen-sourceモデル運用でtoken costを大幅に下げていると発表した。記事では医療、ゲーム、企業サポートの具体的な運用指標が示されている。
NVIDIAは2026年2月16日、GB300 NVL72の推論指標を公開し、Hopper比で最大50倍のthroughput-per-megawattと最大35倍のトークンコスト低減を示した。Microsoft、CoreWeave、OCIでの導入も合わせて公表している。