LocalLLaMAが見たRotorQuant、KV cache compressionをClifford rotorsで作り直す
Original: RotorQuant: 10-19x faster alternative to TurboQuant via Clifford rotors (44x fewer params) View original →
r/LocalLLaMA threadがRotorQuant reportに注目した理由は、LLM inferenceのかなり具体的なbottleneckを狙っているからだ。テーマはKV cache compressionである。ScryaはRotorQuantをGoogleのTurboQuantを作り直した手法として説明する。フルのd x d random orthogonal matrixを各vectorに掛ける代わりに、Cl(3,0)のClifford rotorsを使ってrotor sandwich productを計算する。
速度の主張もかなり明確だ。Scryaのページでは、d=128でdense matrix pathが16,384 multiply-addsを必要とするのに対し、rotor approachは約100 multiply-addsで済むとする。同じページはfused kernelでNVIDIA CUDAにおいて10-19x、Apple Metalで9-31xのspeedupを示し、parameter countも16,399から372へと44x fewer parametersになると述べる。さらにQwen2.5-3B-Instructの実際のKV cache dataでは、attention fidelityがTurboQuantの0.991に対して0.990と、ほぼ同等だと報告している。
なぜLocalLLaMAが強く反応したのか
LocalLLaMAがこうした話題に敏感なのは、local inferenceの詰まりどころがmodel sizeそのものよりmemory movementやkernel efficiencyにあることが多いからだ。Reddit postは、fused kernelがBLAS GEMMのmemory round-tripを減らし、より多くの処理をregister内に留める点を強調した。さらにtested bit-width全体で9/9 needle-in-haystackを達成し、QJL correctionを使えば実モデルでのretrieval qualityがTurboQuant baselineと同等、あるいはtop-1やtop-5 retrievalで一部上回る可能性があると述べている。
ただしthreadはこれを無条件に受け入れたわけではない。post自体がrandom unit vectorsに対するsynthetic MSEの高さを認めており、コメントでも本当にTurboQuantのtheoretical drop-in replacementなのか、それとも実際に重要な分布ではうまく動くengineering tradeなのかが議論された。この留保は重要だ。RotorQuantの価値はtradeoffを消すことではなく、数学的に重いglobal rotationを、より安いstructured operationに置き換えながらreal-model attention fidelityを実用域に保てるかを試している点にある。
だからこそこのthreadが目立った。LocalLLaMAにとって大事なのは派手なbenchmark marketingより、KV cache compressionがconsumer NVIDIA cardやApple Siliconでも十分に速くなるかどうかだ。もし報告されたspeedupがproject pageの外でも再現されるなら、RotorQuantは今後のLLM efficiencyがquantizerだけでなくkernel designとalgebraic structureからも大きく伸びる可能性を示している。
Related Articles
Google Researchは2026年3月24日、KV cacheとvector searchのmemory bottleneckを狙うTurboQuantを公開した。Hacker Newsでは491 points、129 commentsを集め、long-context inferenceのコスト構造を変え得る手法として注目された。
Hacker Newsで注目されたTurboQuantは、再学習なしでKV cacheを3-bitまで圧縮し、検索とlong-context inferenceのメモリボトルネックを和らげるGoogle Researchの手法だ。
r/LocalLLaMA の投稿は、Qwen3.5-122B-A10B Uncensored (Aggressive) の GGUF release と新しい K_P quants を紹介している。0/465 refusals や zero capability loss などの数値は投稿者自身の説明であり、独立検証ではない。
Comments (0)
No comments yet. Be the first to comment!