양자화 기본기, LLM 비용 구조를 다시 설명하다

Hacker News에서 247 points와 46 comments를 얻은 이유는 ngrok의 2026-03-25 quantization explainer가 지금 LLM deployment의 핵심 질문을 정면으로 다루기 때문이다. model quality는 계속 올라가는데, 감당 가능한 memory capacity와 bandwidth는 그 속도를 따라가지 못한다. 이 글은 quantization을 마법 같은 optimization trick으로 포장하지 않고, 왜 parameters가 대부분의 memory를 차지하는지, 왜 floating-point precision이 inference에서는 과한 경우가 많은지, 그리고 representation을 줄이면 왜 cost와 speed가 함께 바뀌는지를 처음부터 설명한다.

글은 scale 감각부터 잡아준다. Qwen-3-Coder-Next 80B가 약 159.4GB이고, long context까지 생각하면 부담은 더 커진다. frontier model이 1T parameters를 넘으면 RAM 요구량이 TB 단위로 올라갈 수 있다는 설명도 덧붙인다. 그다음 quantization을 통제 가능한 trade-off로 정리한다. 고정밀 값을 더 작은 numeric range에 매핑하고, scale factor로 근사 복원을 하면서, 약간의 error를 받아들이는 대신 model size와 memory movement를 크게 줄이는 방식이라는 것이다.

HN 독자에게 특히 유용했던 부분은 이 intuition을 evaluation까지 연결했다는 점이다. 글은 8-bit quantization은 perplexity 변화를 거의 만들지 않지만, 4-bit는 실사용에서 감수 가능한 수준의 penalty를 만들 수 있고, 2-bit는 급격히 무너질 수 있다고 보여준다. 예시 결과에서 bfloat16은 perplexity 8.186, 8-bit symmetric은 8.193, 4-bit asymmetric은 8.563, 4-bit symmetric은 8.71, 2-bit asymmetric은 66.1이다. “작아진다”는 막연한 표현보다, 어떤 bit-depth가 어느 정도 품질 저하를 만드는지 훨씬 operational하게 이해할 수 있게 해준다.

이 글이 울림을 준 더 큰 이유는 quantization이 이제 주변 최적화가 아니라 deployment strategy의 중심이 됐기 때문이다. 더 긴 context window, 더 많은 concurrent users, 더 저렴한 local inference를 원한다면 결국 memory 효율을 건드려야 한다. 4x smaller, 2x faster라는 그림은 단순한 benchmark 수치가 아니라 어떤 hardware가 실사용 가능해지는지를 바꾸는 변수다. HN 토론도 그 방향을 반영했다. quantization은 더 이상 runtime specialists만의 주제가 아니라, LLM systems를 실제 machine과 budget 안에 맞춰 넣어야 하는 모든 팀의 핵심 관심사가 되고 있다.

Original source: ngrok blog

양자화 기본기, LLM 비용 구조를 다시 설명하다

Related Articles

r/MachineLearning이 올린 TurboQuant for weights, 4-bit weight quantization의 실전화

GLM-5.2를 느린 PC에서 돌리는 Colibri, Local AI의 병목은 GPU만이 아닌 이유

GLM5.2 집에서 돌리기, LocalLLaMA가 본 진짜 비용은 GPU 숫자

Related Articles

r/MachineLearning이 올린 TurboQuant for weights, 4-bit weight quantization의 실전화
LLM Reddit Mar 29, 2026 2 min read

GLM-5.2를 느린 PC에서 돌리는 Colibri, Local AI의 병목은 GPU만이 아닌 이유
744B MoE 모델을 소비자용 PC에서 돌리겠다는 실험에 관심이 모였다. Colibri는 GLM-5.2의 활성 파라미터와 전문가 라우팅 구조를 이용해, 거대한 모델을 전부 RAM이나 GPU에 올리지 않는 쪽으로 설계를 잡았다.

GLM5.2 집에서 돌리기, LocalLLaMA가 본 진짜 비용은 GPU 숫자
5개의 RTX PRO 6000과 5090까지 동원한 실험은 로컬 LLM의 낭만보다 전력, VRAM, 예산의 현실을 더 선명하게 보여줬다.