Cursorは2026年4月6日のXで、NVIDIA Blackwell GPUs向けにMoE modelのtoken generation pathを作り直したと述べた。あわせて公開したengineering postでは、「warp decode」によりthroughputが1.84倍になり、outputsがFP32 referenceに1.4倍近づくと主張している。
#inference
RSS Feed最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
r/LocalLLaMA の self-post が、2x H200 上で GPT-OSS-120B を回しながら 1 日あたり 10 億 token 超を処理する内部 serving stack を公開した。vLLM、LiteLLM、mxfp4、queueing bottleneck まで含めた具体的な運用データがコミュニティの注目を集めている。
LocalLLaMA スレッドは speculative decoding 向けの block-diffusion draft model、DFlash に注目を集めた。論文は 6x 超の lossless acceleration と、vLLM、SGLang、一部 Transformers backend の直接サポートを打ち出している。
LocalLLaMA の技術解説は、Gemma 4 E2B/E4B の効率が Per-Layer Embeddings にあると説明する。重要なのは、それらの多くのパラメータが常時重い計算を行う層ではなく、大きな token lookup table のように振る舞うため、推論時のコスト感覚が変わるという点だ。
LocalLLaMA では、Gemma 4 の初期トラブルの一部は model 自体ではなく llama.cpp runtime bugs や support lag に起因する可能性があるという指摘が出ている。複数の pull request と user report が、early benchmark を読み替える必要性を示している。
NVIDIADCは2026年3月17日のX投稿で、Groq 3 LPXをVera Rubin platform向けのrack-scale low-latency inference acceleratorとして紹介した。NVIDIAの3月16日付press releaseとtechnical blogによれば、LPXは256基のLPU、128GBのon-chip SRAM、640 TB/sのscale-up bandwidthを備え、Vera Rubin NVL72と組み合わせてagentic AI向けのheterogeneous inference pathを形成する。
Hacker Newsでは、KV cacheを抽象的なarchitecture用語ではなくGPU memoryコストとして説明するFuture Shockの記事が再び共有されている。GPT-2からLlama 3、DeepSeek V3、Gemma 3、Mamba系まで、memory設計の変化を一つの流れとして見せる内容だ。
Together Researchは2026年3月31日、live inference traceから学習し、speculative draft modelをserving停止なしに非同期更新するopen-source frameworkのAuroraを公開した。ブログと論文によれば、Auroraはこの問題をasynchronous RLとして定式化し、traffic shift時に強いstatic speculator比で1.25xの追加高速化を示す。
LocalLLaMAで話題になったattn-rotは、Hadamard rotationでQ、K、Vを回転させてKV cache quantizationの品質を改善しようとするllama.cpp PRだ。新しいformatを作らずにperplexityを大きく下げられる可能性が注目されている。
Hacker Newsに投稿されたPrism MLの1-Bit Bonsaiは、1.15GBの8B modelからiPhone級の1.7B modelまでを掲げ、1-bit weightでedge inference economicsを作り替えようとしている。焦点はparameter countではなく、intelligence densityとhardware fitにある。
r/LocalLLaMAで、CPUにoffloadした重みを先読みしてprompt処理速度の低下を抑えるllama.cpp実験が話題になった。長いcontextでのhybrid CPU/GPU推論のボトルネックを減らす狙いだ。