Cloudflare Unweight, Llama 번들을 손실 없이 최대 22% 줄이는 GPU 커널 공개
Original: Cloudflare Unweight compresses Llama 3.1 8B model bundles up to 22% losslessly View original →
트윗이 드러낸 것
Cloudflare는 자사 network에서 LLM을 실행하려면 GPU memory bandwidth를 더 효율적으로 써야 한다고 쓰고, “up to a 22% model footprint reduction”을 내세웠다. 이 트윗이 중요한 이유는 inference cost의 병목이 raw compute뿐 아니라 memory bandwidth로 이동하고 있음을 직접 겨냥하기 때문이다.
Cloudflare 계정은 Workers AI, network performance, developer platform의 생산 환경 작업을 자주 올린다. 연결된 글은 이 시스템을 Unweight라고 부른다. 모델 weight를 lossless하게 압축해 bit-exact output을 유지하고, 특별한 hardware 없이 동작하도록 설계한 방식이다. Cloudflare는 technical paper와 GPU kernels도 공개했다. 그래서 이번 글은 단순 제품 teaser가 아니라 외부 검증 가능한 infrastructure research에 가깝다.
엔지니어링 주장의 핵심
핵심 결과는 Llama 3.1 8B에서 측정됐다. Cloudflare는 Unweight가 MLP weights에서 약 30% compression을 얻고, 전체로는 15-22% model-size reduction과 약 3GB VRAM savings로 이어진다고 적었다. Distribution bundle에서는 약 22%까지, inference bundle에서는 selected projections만 압축할 때 약 13% footprint reduction을 보고했다.
방식은 quantization과 달리 의도적으로 lossless다. BF16 weight의 exponent byte가 반복되는 점을 Huffman coding으로 압축하고, Hopper tensor cores에 넣기 직전 fast on-chip shared memory에서 weight를 복원한다. 이렇게 하면 decompressed weight를 느린 main GPU memory로 다시 왕복시키지 않아도 된다. 대신 tradeoff도 있다. 현재 Llama 3.1 8B 구현은 H100 SXM5에서 30-40% throughput overhead를 보이며, batch size가 커질수록 이 비용이 줄어든다고 설명했다.
다음 관전점은 open kernels로 외부 팀이 memory savings를 재현하는지, Cloudflare가 throughput overhead를 얼마나 줄이는지, 그리고 이 접근이 Llama 계열 SwiGLU model을 넘어 다른 architecture에도 일반화되는지다. 출처: Cloudflare source tweet · Cloudflare technical post · GPU kernels
Related Articles
Cloudflare는 2026년 4월 11일 X에서 AI app 보안이 더 이상 rate limiting만으로 끝나지 않는다고 강조했다. 연결된 자료를 보면 회사는 LLM endpoint discovery, prompt-level detection, WAF mitigation을 edge 보안의 기본 흐름으로 묶으려 한다.
Hugging Face는 최적화된 GPU 코드를 Hub-native artifact로 바꿔 PyTorch 배포의 까다로운 단계를 줄이려 한다. Clement Delangue는 새 Kernels 흐름이 GPU, PyTorch 빌드, OS에 맞는 precompiled binary를 내려주며 PyTorch baseline 대비 1.7배에서 2.5배 성능 향상을 노린다고 적었다.
Hacker News front page에 오른 EE Times 인터뷰는 AMD가 ROCm, Triton, OneROCm, open-source 전략으로 CUDA 의존도를 단계적으로 낮추려는 접근을 정리한다. 핵심은 화려한 호환성 선언보다 vLLM과 SGLang이 자연스럽게 돌아가는 boring한 software 완성도다.
Comments (0)
No comments yet. Be the first to comment!