LocalLLaMAが見たRotorQuant、KV cache compressionをClifford rotorsで作り直す
Original: RotorQuant: 10-19x faster alternative to TurboQuant via Clifford rotors (44x fewer params) View original →
r/LocalLLaMA threadがRotorQuant reportに注目した理由は、LLM inferenceのかなり具体的なbottleneckを狙っているからだ。テーマはKV cache compressionである。ScryaはRotorQuantをGoogleのTurboQuantを作り直した手法として説明する。フルのd x d random orthogonal matrixを各vectorに掛ける代わりに、Cl(3,0)のClifford rotorsを使ってrotor sandwich productを計算する。
速度の主張もかなり明確だ。Scryaのページでは、d=128でdense matrix pathが16,384 multiply-addsを必要とするのに対し、rotor approachは約100 multiply-addsで済むとする。同じページはfused kernelでNVIDIA CUDAにおいて10-19x、Apple Metalで9-31xのspeedupを示し、parameter countも16,399から372へと44x fewer parametersになると述べる。さらにQwen2.5-3B-Instructの実際のKV cache dataでは、attention fidelityがTurboQuantの0.991に対して0.990と、ほぼ同等だと報告している。
なぜLocalLLaMAが強く反応したのか
LocalLLaMAがこうした話題に敏感なのは、local inferenceの詰まりどころがmodel sizeそのものよりmemory movementやkernel efficiencyにあることが多いからだ。Reddit postは、fused kernelがBLAS GEMMのmemory round-tripを減らし、より多くの処理をregister内に留める点を強調した。さらにtested bit-width全体で9/9 needle-in-haystackを達成し、QJL correctionを使えば実モデルでのretrieval qualityがTurboQuant baselineと同等、あるいはtop-1やtop-5 retrievalで一部上回る可能性があると述べている。
ただしthreadはこれを無条件に受け入れたわけではない。post自体がrandom unit vectorsに対するsynthetic MSEの高さを認めており、コメントでも本当にTurboQuantのtheoretical drop-in replacementなのか、それとも実際に重要な分布ではうまく動くengineering tradeなのかが議論された。この留保は重要だ。RotorQuantの価値はtradeoffを消すことではなく、数学的に重いglobal rotationを、より安いstructured operationに置き換えながらreal-model attention fidelityを実用域に保てるかを試している点にある。
だからこそこのthreadが目立った。LocalLLaMAにとって大事なのは派手なbenchmark marketingより、KV cache compressionがconsumer NVIDIA cardやApple Siliconでも十分に速くなるかどうかだ。もし報告されたspeedupがproject pageの外でも再現されるなら、RotorQuantは今後のLLM efficiencyがquantizerだけでなくkernel designとalgebraic structureからも大きく伸びる可能性を示している。
Related Articles
高スコアの r/LocalLLaMA 投稿は、TurboQuant を polar coordinates ではなく random rotation の後に quantization するという直感で説明した。リンク先の arXiv paper は、near-optimal distortion rate、residual QJL、そして KV cache での 3.5 bits per channel quality neutrality を主張している。
r/LocalLLaMA で注目された TurboQuant は、KV cache を 3-bit に圧縮して memory 使用量を少なくとも 6 倍削減できるという Google Research の主張を再浮上させた。焦点は、この手法が実際の local inference stack に入ったときに long-context 性能と運用コストをどこまで変えられるかだ。
2026年3月にr/singularityで共有されたGoogle ResearchのTurboQuant記事は114 pointsと18 commentsを集めた。Googleは、この手法がneedle系タスクでKV cacheメモリを少なくとも6倍削減し、学習なしで3-bit圧縮とH100で最大8倍のattention-logit高速化を示したと説明している。
Comments (0)
No comments yet. Be the first to comment!