#llm-inference

RSSフィード

LLM X/Twitter Jul 14, 2026 1 min read

NVIDIA、LLM寸法の128・256整列でBlackwell推論の遅延とGPUボトルネックを削る設計指針

NVIDIAはLLMの寸法設計がGPU推論の処理量と遅延を左右すると示した。128倍数の整列、256・512の優先、NVFP4、MoE向け並列化が具体的な論点になる。

#nvidia #llm-inference #gpu

LLM Hacker News Jun 28, 2026 1 min read

DeepSeek DSpark、LLM推論の詰まりを「検証長」で解く試み

注目点は単なる高速化ではなく、どのdraft tokenを検証するかにある。DeepSeekはDSparkによりDeepSeek-V4でユーザーごとの生成速度が60〜85%向上したと説明している。

#deepseek #speculative-decoding #llm-inference

LLM Reddit May 12, 2026 1 min read

製造終了のIntel OptaneメモリでローカルLLM(1兆パラメータ)を毎秒4トークンで動作

r/LocalLLaMAのユーザーが、製造終了したIntel Optane PMem(768GB)を中古市場で安価に入手し、Kimi K2.5(1兆パラメータ)をローカルで毎秒4トークン以上で動作させることに成功した。

#intel-optane #local-llm #llama-cpp

AI X/Twitter Apr 18, 2026 1 min read

Cloudflare Unweight、Llama bundleをlosslessに最大22%削るGPU kernelを公開

重要なのは、CloudflareがLLM servingの制約をGPU台数ではなくmemory-bandwidthの問題として扱っている点だ。記事はLlama 3.1 8Bで15-22%のmodel-size reduction、約3GBのVRAM削減、公開GPU kernelsを示した。

#cloudflare #llm-inference #gpu

LLM Reddit Mar 29, 2026 1 min read

Redditが注目したTurboQuant、精度を落とさず3-bit KV cache圧縮を狙うGoogleの手法

2026年3月にr/singularityで共有されたGoogle ResearchのTurboQuant記事は114 pointsと18 commentsを集めた。Googleは、この手法がneedle系タスクでKV cacheメモリを少なくとも6倍削減し、学習なしで3-bit圧縮とH100で最大8倍のattention-logit高速化を示したと説明している。

#quantization #kv-cache #vector-search

LLM Reddit Mar 29, 2026 1 min read

r/LocalLLaMA が噛み砕いた TurboQuant の核心、rotate してから quantize する

高スコアの r/LocalLLaMA 投稿は、TurboQuant を polar coordinates ではなく random rotation の後に quantization するという直感で説明した。リンク先の arXiv paper は、near-optimal distortion rate、residual QJL、そして KV cache での 3.5 bits per channel quality neutrality を主張している。

#turboquant #quantization #kv-cache

LLM Reddit Mar 28, 2026 1 min read

r/LocalLLaMA が注目した TurboQuant、KV cache 圧縮で local LLM の壁を下げるか

r/LocalLLaMA で注目された TurboQuant は、KV cache を 3-bit に圧縮して memory 使用量を少なくとも 6 倍削減できるという Google Research の主張を再浮上させた。焦点は、この手法が実際の local inference stack に入ったときに long-context 性能と運用コストをどこまで変えられるかだ。

#compression #kv-cache #quantization

LLM Reddit Mar 27, 2026 1 min read

LocalLLaMAが注目したTurboQuant実装、sparse V dequantで32K decodeを22.8%改善

LocalLLaMAのself-postは、attention weightが無視できる位置でV dequantを飛ばすsparse V dequant手法を紹介し、llama.cpp向けTurboQuant実装で32K context decodeを22.8%押し上げたと報告した。Qwen3.5-35B-A3BとApple M5 Maxではperplexityは維持され、NIAHは7/9から9/9へ改善したという。

#llm-inference #kv-cache #llama-cpp

LLM Reddit Mar 27, 2026 1 min read

LocalLLaMAが見たRotorQuant、KV cache compressionをClifford rotorsで作り直す

Reddit threadが反応したのは、TurboQuantのdense rotationをより構造的なrotor mathに置き換え、attention fidelityを大きく落とさずkernel costを下げられるという実務的な主張だった。

#rotorquant #quantization #kv-cache

LLM Hacker News Mar 25, 2026 1 min read

Hacker Newsが注目したHypura、Macで容量超えLLMを階層スケジューリング実行

Hacker Newsが注目したHypuraは、Apple SiliconでGPU・RAM・NVMeをまたいでテンソルを配置し、メモリ超過のLLMをMac上で動かそうとするローカルinferenceプロジェクトだ。

#apple-silicon #llm-inference #memory-scheduling

LLM Hacker News Mar 13, 2026 1 min read

Hacker News、browser上でlocal AIの適合性を計算する CanIRun.ai に注目

CanIRun.aiはWebGL、WebGPU、navigator APIを使ってbrowser内でGPU、CPU、RAMを検出し、どの quantized model が手元の machine に合うかを推定する。HNでは発想を歓迎する声が多かった一方、欠けている hardware 項目、保守的な推定値、model 起点の逆引き機能を求める声も出た。

#local-ai #llm-inference #hardware

AI Reddit Mar 1, 2026 1 min read

ベアメタルAI：OSもカーネルも不要、UEFIで直接LLM推論を実行

開発者がOSやカーネルなしにUEFIブートサービスモードで直接LLM推論を実行するUEFIアプリケーションを実装しました。トークナイザーから推論エンジンまで、依存ゼロの純粋なCで書かれています。

#bare-metal #llm-inference #uefi