HNの反応はコードだけでなくREADMEに集まった。vLLMの考え方を、小さな実装と教材の流れに落とし込んでいる点が評価された。
#inference
RSS FeedHNで注目されたのは資金調達そのものより、複数モデルを束ねるゲートウェイが本当に防御力のある基盤になるかだった。
NVIDIAはLLM推論スタックの設定探索を実機投入前に絞り込むDynoSimを示した。技術ブログでは23,608件のリクエスト、60.1分のserving windowを2.41秒で再現した例が示されている。
LLM inferenceで高いのはGPUだけでなく、実験そのものだ。NVIDIAはDynoSimが23,608 requestのtraceをApple M4 MacBook Air上で2.41秒で再生し、60.1分のserving windowを約1,500倍速で模擬したと示した。
焦点は新しいチャット画面ではなく、航空機・自動車・半導体装置の設計現場だ。MistralはAirbus、BMW、ASMLの事例とQ3 2026開設予定の10MW Les Ulis推論施設を並べ、産業AI stackを前面に出した。
LocalLLaMAで注目されたのは、同じGPU・同じmodel・同じsoftware stackのまま、throughput 15%増とfirst-token P99 latency 40.6%減を主張した点だった。
資金はモデルそのものだけでなく、どのリクエストをどのモデルへ流すかを決める層にも集まり始めた。OpenRouterは週25兆トークン、400以上のモデル、800万超のユーザーを掲げて$113 million Series Bを獲得した。
OrthrusフレームワークがQwen3モデルで1回のforwardパスあたり最大7.8倍のトークン生成を達成した。単一KVキャッシュで自動回帰と拡散ビューを統合するデュアルビューアーキテクチャにより、出力分布は原本と数学的に同一だ。
LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。
llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。
GoogleがGemma 4モデルファミリー向けのMTPドラフターを公開。投機的デコーディングアーキテクチャにより、出力品質を損なわず推論速度を最大3倍向上させる。
llama.cppのマルチトークン予測(MTP)サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。