Skip to content

#llm-inference

RSS Feed
LLM Reddit Mar 29, 2026 1 min read

2026年3月にr/singularityで共有されたGoogle ResearchのTurboQuant記事は114 pointsと18 commentsを集めた。Googleは、この手法がneedle系タスクでKV cacheメモリを少なくとも6倍削減し、学習なしで3-bit圧縮とH100で最大8倍のattention-logit高速化を示したと説明している。

LLM Reddit Mar 28, 2026 1 min read

r/LocalLLaMA で注目された TurboQuant は、KV cache を 3-bit に圧縮して memory 使用量を少なくとも 6 倍削減できるという Google Research の主張を再浮上させた。焦点は、この手法が実際の local inference stack に入ったときに long-context 性能と運用コストをどこまで変えられるかだ。

LLM Hacker News Mar 13, 2026 1 min read

CanIRun.aiはWebGL、WebGPU、navigator APIを使ってbrowser内でGPU、CPU、RAMを検出し、どの quantized model が手元の machine に合うかを推定する。HNでは発想を歓迎する声が多かった一方、欠けている hardware 項目、保守的な推定値、model 起点の逆引き機能を求める声も出た。