r/LocalLLaMAのユーザーが、製造終了したIntel Optane PMem(768GB)を中古市場で安価に入手し、Kimi K2.5(1兆パラメータ)をローカルで毎秒4トークン以上で動作させることに成功した。
#llm-inference
RSS Feed重要なのは、CloudflareがLLM servingの制約をGPU台数ではなくmemory-bandwidthの問題として扱っている点だ。記事はLlama 3.1 8Bで15-22%のmodel-size reduction、約3GBのVRAM削減、公開GPU kernelsを示した。
2026年3月にr/singularityで共有されたGoogle ResearchのTurboQuant記事は114 pointsと18 commentsを集めた。Googleは、この手法がneedle系タスクでKV cacheメモリを少なくとも6倍削減し、学習なしで3-bit圧縮とH100で最大8倍のattention-logit高速化を示したと説明している。
高スコアの r/LocalLLaMA 投稿は、TurboQuant を polar coordinates ではなく random rotation の後に quantization するという直感で説明した。リンク先の arXiv paper は、near-optimal distortion rate、residual QJL、そして KV cache での 3.5 bits per channel quality neutrality を主張している。
r/LocalLLaMA で注目された TurboQuant は、KV cache を 3-bit に圧縮して memory 使用量を少なくとも 6 倍削減できるという Google Research の主張を再浮上させた。焦点は、この手法が実際の local inference stack に入ったときに long-context 性能と運用コストをどこまで変えられるかだ。
LocalLLaMAのself-postは、attention weightが無視できる位置でV dequantを飛ばすsparse V dequant手法を紹介し、llama.cpp向けTurboQuant実装で32K context decodeを22.8%押し上げたと報告した。Qwen3.5-35B-A3BとApple M5 Maxではperplexityは維持され、NIAHは7/9から9/9へ改善したという。
Reddit threadが反応したのは、TurboQuantのdense rotationをより構造的なrotor mathに置き換え、attention fidelityを大きく落とさずkernel costを下げられるという実務的な主張だった。
Hacker Newsが注目したHypuraは、Apple SiliconでGPU・RAM・NVMeをまたいでテンソルを配置し、メモリ超過のLLMをMac上で動かそうとするローカルinferenceプロジェクトだ。
CanIRun.aiはWebGL、WebGPU、navigator APIを使ってbrowser内でGPU、CPU、RAMを検出し、どの quantized model が手元の machine に合うかを推定する。HNでは発想を歓迎する声が多かった一方、欠けている hardware 項目、保守的な推定値、model 起点の逆引き機能を求める声も出た。
開発者がOSやカーネルなしにUEFIブートサービスモードで直接LLM推論を実行するUEFIアプリケーションを実装しました。トークナイザーから推論エンジンまで、依存ゼロの純粋なCで書かれています。
r/LocalLLaMAで話題になったDualPath論文は、KV-Cacheの読み込み経路を二重化して推論スループットを改善する手法を提示した。arXiv要約では、オフライン最大1.87倍、オンライン平均1.96倍の改善が報告されている。
Hacker Newsで反応を集めた投稿はTogether AIのCDLM解説を共有した。記事は、trajectory-consistentなstep削減とexact block-wise KV cachingの組み合わせにより、拡散型言語モデルで最大14.5倍のレイテンシ改善を報告している。