M5 Max 128GBでQwen3.5-397BをSSD streamingしながら20.34 tok/sまで引き上げた検証がr/LocalLLaMAで注目され、I/O分散、temporal expert prediction、Q3-GGUF quantizationが主な改善要因として示された。
#inference
RSS FeedNVIDIAは2026年3月16日、generative/agentic inference向けopen-source基盤としてDynamo 1.0を発表した。Blackwell性能の引き上げ、token cost削減、主要framework統合を一体化した点が大きい。
3月1日にr/MachineLearningで注目を集めた比較投稿は、94件のLLM endpointを横断して、open modelがproprietary最上位にかなり近づいたと主張した。重要なのは順位そのものより、モデル選定が価格・速度・配備自由度まで含む運用判断へ変わったことだ。
r/MachineLearning の新しい投稿が、TurboQuant を KV cache の話題から weight compression へ押し進めた。GitHub 実装は low-bit LLM inference の drop-in path を狙う。
Metaは自社AI chipのMTIA roadmapをMTIA 300、400、450、500まで拡張したと説明した。2026〜2027年の配備を通じて、GenAI inferenceをより低コストで回す基盤を整える狙いだ。
2026年3月26日、Google CloudのB200 clusterでQwen 3.5 27Bをserveした事例を扱うr/LocalLLaMA投稿は、クロール時点で205 pointsと52 commentsを集めた。リンク先記事はtensor parallelismからdata parallelismへ切り替え、context lengthを縮め、FP8 KV cacheとMTP-1 speculative decodingを有効化することで、12 nodeで合計1,103,941 tokens per secondに達したと説明している。
2026年3月26日、NVIDIAの`gpt-oss-puzzle-88B`モデルカードを扱ったr/LocalLLaMA投稿は、クロール時点で284 pointsと105 commentsを集めた。NVIDIAはこの88B MoEモデルがPuzzle post-training NASを用いてparameter数とKV-cache負荷を削減しつつ、reasoning accuracyを親モデル並みかそれ以上に保つと説明している。
Vercelは2026年3月25日、AI Gateway向けCustom Reporting APIをProおよびEnterpriseプランでbeta提供すると発表した。ブログによれば、BYOKリクエストを含むAI Gatewayトラフィックのcost、token usage、request volumeを取得し、model、provider、user ID、tags、credential typeごとに分析できる。
ngrokは2026-03-25公開のexplainerで、quantizationがLLMをroughly 4x smaller、2x fasterにでき、4-bitと8-bitのtrade-offをどう読むべきかを丁寧に整理した。Hacker Newsはこの投稿を247 pointsと46 commentsまで押し上げ、memory bottleneckとlocal inferenceのコスト構造をあらためて議論した。
r/LocalLLaMAではIntel Arc Pro B70/B65の話題が213 upvotes、133 commentsを集めた。IntelはB70を2026年3月25日から$949 starting priceで提供し、B65はmid-Aprilに投入するとしている。
Google Researchは2026年3月24日、KV cacheとvector searchのmemory bottleneckを狙うTurboQuantを公開した。Hacker Newsでは491 points、129 commentsを集め、long-context inferenceのコスト構造を変え得る手法として注目された。
AWSとCerebrasは2026年3月13日、Amazon Bedrock向けの高速inference提供に向けた協業を発表した。AWS Trainiumがprefill、Cerebras CS-3がdecodeを担う分離型構成が中核になる。