#inference

LLM Reddit Mar 30, 2026 1 min read

r/LocalLLaMA、M5 MaxでQwen3.5-397Bを20.34 tok/sまで伸ばしたautoresearchを共有

M5 Max 128GBでQwen3.5-397BをSSD streamingしながら20.34 tok/sまで引き上げた検証がr/LocalLLaMAで注目され、I/O分散、temporal expert prediction、Q3-GGUF quantizationが主な改善要因として示された。

#qwen #apple-silicon #inference

LLM Mar 30, 2026 1 min read

NVIDIA、Dynamo 1.0をAI factory向けinference OSとして本番投入

NVIDIAは2026年3月16日、generative/agentic inference向けopen-source基盤としてDynamo 1.0を発表した。Blackwell性能の引き上げ、token cost削減、主要framework統合を一体化した点が大きい。

#nvidia #dynamo #inference

LLM Reddit Mar 30, 2026 1 min read

r/MachineLearningで注目された94件のLLM比較、open modelの距離はどこまで縮んだか

3月1日にr/MachineLearningで注目を集めた比較投稿は、94件のLLM endpointを横断して、open modelがproprietary最上位にかなり近づいたと主張した。重要なのは順位そのものより、モデル選定が価格・速度・配備自由度まで含む運用判断へ変わったことだ。

#llm-benchmarks #open-source #model-evaluation

LLM Reddit Mar 29, 2026 1 min read

r/MachineLearning が追う TurboQuant for weights、4-bit weight quantization の実戦投入

r/MachineLearning の新しい投稿が、TurboQuant を KV cache の話題から weight compression へ押し進めた。GitHub 実装は low-bit LLM inference の drop-in path を狙う。

#quantization #llm #inference

AI Mar 29, 2026 1 min read

Meta、MTIA 300〜500 roadmap公開　自社AI chip展開を加速

Metaは自社AI chipのMTIA roadmapをMTIA 300、400、450、500まで拡張したと説明した。2026〜2027年の配備を通じて、GenAI inferenceをより低コストで回す基盤を整える狙いだ。

#meta #ai-chips #inference

LLM Reddit Mar 28, 2026 1 min read

LocalLLaMAが見たQwen 3.5 27Bの110万 tok/s、主役はB200よりvLLM tuning

2026年3月26日、Google CloudのB200 clusterでQwen 3.5 27Bをserveした事例を扱うr/LocalLLaMA投稿は、クロール時点で205 pointsと52 commentsを集めた。リンク先記事はtensor parallelismからdata parallelismへ切り替え、context lengthを縮め、FP8 KV cacheとMTP-1 speculative decodingを有効化することで、12 nodeで合計1,103,941 tokens per secondに達したと説明している。

#qwen #vllm #nvidia-b200

LLM Reddit Mar 28, 2026 1 min read

LocalLLaMAが見たNVIDIA gpt-oss-puzzle-88B、gpt-oss-120bをより安くserveする88B再設計

2026年3月26日、NVIDIAの`gpt-oss-puzzle-88B`モデルカードを扱ったr/LocalLLaMA投稿は、クロール時点で284 pointsと105 commentsを集めた。NVIDIAはこの88B MoEモデルがPuzzle post-training NASを用いてparameter数とKV-cache負荷を削減しつつ、reasoning accuracyを親モデル並みかそれ以上に保つと説明している。

#nvidia #gpt-oss #open-weights

LLM X/Twitter Mar 26, 2026 1 min read

Vercel、provider・user・料金ティア横断で見えるAI Gateway統合レポーティングを公開

Vercelは2026年3月25日、AI Gateway向けCustom Reporting APIをProおよびEnterpriseプランでbeta提供すると発表した。ブログによれば、BYOKリクエストを含むAI Gatewayトラフィックのcost、token usage、request volumeを取得し、model、provider、user ID、tags、credential typeごとに分析できる。

#vercel #ai-gateway #cost-observability

LLM Hacker News Mar 26, 2026 1 min read

量子化の基礎解説がLLMコストの本丸を見える化する

ngrokは2026-03-25公開のexplainerで、quantizationがLLMをroughly 4x smaller、2x fasterにでき、4-bitと8-bitのtrade-offをどう読むべきかを丁寧に整理した。Hacker Newsはこの投稿を247 pointsと46 commentsまで押し上げ、memory bottleneckとlocal inferenceのコスト構造をあらためて議論した。

#quantization #llm #inference

LLM Reddit Mar 26, 2026 1 min read

Intel Arc Pro B70/B65がLocalLLaMAの本命候補として浮上

r/LocalLLaMAではIntel Arc Pro B70/B65の話題が213 upvotes、133 commentsを集めた。IntelはB70を2026年3月25日から$949 starting priceで提供し、B65はmid-Aprilに投入するとしている。

#intel #gpu #vram

LLM Hacker News Mar 26, 2026 1 min read

TurboQuantがKV cache圧縮をLLM systems設計の中心課題に押し上げる

Google Researchは2026年3月24日、KV cacheとvector searchのmemory bottleneckを狙うTurboQuantを公開した。Hacker Newsでは491 points、129 commentsを集め、long-context inferenceのコスト構造を変え得る手法として注目された。

#quantization #kv-cache #inference

LLM Mar 25, 2026 1 min read