Reddit가 주목한 llama.cpp의 attn-rot, 저비용 quantization 개선

Original: attn-rot (TurboQuant-like KV cache trick) lands in llama.cpp View original →

Read in other languages: English日本語
LLM Apr 2, 2026 By Insights AI (Reddit) 1 min read Source

r/LocalLLaMA에서 빠르게 확산된 이 글은 2026년 4월 1일 병합된 llama.cpp PR #21038를 다룬다. 작성자는 ggerganov이며, 내용은 attention 단계에서 TurboQuant 계열 아이디어를 단순한 형태로 적용하는 것이다. 구현은 정규화된 Hadamard matrix를 사용해 입력 Q, K, V를 회전시키고, 회전된 공간에서 attention을 수행한 뒤 출력 벡터를 다시 되돌리는 구조다.

흥미로운 점은 이 접근이 의도적으로 보수적이라는 것이다. PR은 새로운 quantization type을 만들지 않는다. 대신 backend-agnostic하게 유지하면서 기존 quantization과 호환되는 상태에서, quantized cache의 품질을 끌어올리는 것을 목표로 한다. 작성자는 rotation이 outlier를 줄여 low-bit 표현의 attention 품질 보존에 도움이 된다고 설명한다. LocalLLaMA 게시물은 이것을 TurboQuant 효과의 약 “80%”를 적은 downside로 가져오는 방식이라고 요약했고, PR의 perplexity 표도 그 감각을 뒷받침한다. 여러 q4, q5 cache 설정이 Qwen, Gemma 계열에서 F16에 더 가까워졌다.

  • PR은 2026년 3월 26일 열렸고 2026년 4월 1일 병합됐다.
  • 변경 범위는 4개 파일, 337 additions, 26 deletions다.
  • 작성자는 MLA 미지원과 PolarQuant, QJL 같은 다른 TurboQuant 구성요소 미포함을 명시했다.

이 조합이 바로 Reddit 커뮤니티가 반응한 이유다. 로컬 모델 생태계에는 논문 아이디어를 증명하지만 유지보수가 어려운 fork가 많다. 반면 한 번 llama.cpp upstream에 들어가면 실사용 inference stack의 일부가 된다. 댓글 흐름도 그 점을 더 중요하게 본다. 새로운 논문 기법 하나가 더 생겼다는 것보다, 쓸모 있는 압축 아이디어가 mainstream toolchain으로 편입됐다는 데 의미를 두는 분위기다.

물론 아직은 초기 단계다. PR 본문도 perplexity 표 외 더 많은 평가가 필요하다고 적는다. 그래도 제한된 VRAM에서 더 나은 모델을 돌리려는 사용자 입장에서는 q4, q5 cache 품질을 유지하는 단순한 rotation만으로도 충분히 큰 개선이다. 이 Reddit 글은 추론 엔지니어링이 점점 “완전한 논문 패키지”를 기다리기보다, 마찰이 가장 낮은 개선부터 빠르게 실전에 넣는 방향으로 움직인다는 신호처럼 읽힌다.

출처: llama.cpp PR · r/LocalLLaMA 토론

Share: Long

Related Articles

LLM Reddit 4d ago 1 min read

점수가 높은 r/LocalLLaMA 글은 TurboQuant를 polar coordinates가 아니라 random rotation 이후 quantization이라는 직관으로 설명했다. 링크된 arXiv paper는 near-optimal distortion rate, residual QJL, 그리고 KV cache에서 3.5 bits per channel quality neutrality를 주장한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.