r/LocalLLaMA threadがRotorQuant reportに注目した理由は、LLM inferenceのかなり具体的なbottleneckを狙っているからだ。テーマはKV cache compressionである。ScryaはRotorQuantをGoogleのTurboQuantを作り直した手法として説明する。フルのd x d random orthogonal matrixを各vectorに掛ける代わりに、Cl(3,0)のClifford rotorsを使ってrotor sandwich productを計算する。

速度の主張もかなり明確だ。Scryaのページでは、d=128でdense matrix pathが16,384 multiply-addsを必要とするのに対し、rotor approachは約100 multiply-addsで済むとする。同じページはfused kernelでNVIDIA CUDAにおいて10-19x、Apple Metalで9-31xのspeedupを示し、parameter countも16,399から372へと44x fewer parametersになると述べる。さらにQwen2.5-3B-Instructの実際のKV cache dataでは、attention fidelityがTurboQuantの0.991に対して0.990と、ほぼ同等だと報告している。

なぜLocalLLaMAが強く反応したのか

LocalLLaMAがこうした話題に敏感なのは、local inferenceの詰まりどころがmodel sizeそのものよりmemory movementやkernel efficiencyにあることが多いからだ。Reddit postは、fused kernelがBLAS GEMMのmemory round-tripを減らし、より多くの処理をregister内に留める点を強調した。さらにtested bit-width全体で9/9 needle-in-haystackを達成し、QJL correctionを使えば実モデルでのretrieval qualityがTurboQuant baselineと同等、あるいはtop-1やtop-5 retrievalで一部上回る可能性があると述べている。

ただしthreadはこれを無条件に受け入れたわけではない。post自体がrandom unit vectorsに対するsynthetic MSEの高さを認めており、コメントでも本当にTurboQuantのtheoretical drop-in replacementなのか、それとも実際に重要な分布ではうまく動くengineering tradeなのかが議論された。この留保は重要だ。RotorQuantの価値はtradeoffを消すことではなく、数学的に重いglobal rotationを、より安いstructured operationに置き換えながらreal-model attention fidelityを実用域に保てるかを試している点にある。

だからこそこのthreadが目立った。LocalLLaMAにとって大事なのは派手なbenchmark marketingより、KV cache compressionがconsumer NVIDIA cardやApple Siliconでも十分に速くなるかどうかだ。もし報告されたspeedupがproject pageの外でも再現されるなら、RotorQuantは今後のLLM efficiencyがquantizerだけでなくkernel designとalgebraic structureからも大きく伸びる可能性を示している。

#rotorquant

LocalLLaMAが見たRotorQuant、KV cache compressionをClifford rotorsで作り直す