이번 Reddit 글의 가치

r/LocalLLaMA의 후속 벤치마크 글은 크롤링 시점 기준 494 업보트와 139 댓글을 기록했다. 작성자는 커뮤니티 요청을 반영해 7개 추가 실험을 수행했고, 환경은 RTX 5080 16GB, Ryzen 9 9950X, RAM 128GB, CUDA 12.8 기반 llama.cpp 소스 빌드로 명시했다. 단발성 수치 나열이 아니라 수정 내역과 제한 조건까지 함께 적어 재현 관점에서 참고 가치가 크다.

공유된 핵심 결과

게시글에 따르면 KV cache를 q8_0로 두는 설정은 공유된 PPL 표에서 영향이 매우 작았고, 처리량 이점이 유지됐다. 그래서 -ctk q8_0 -ctv q8_0 권고를 계속 유지했다. 또한 PPL만 보지 않고 KL divergence를 추가해 비교했으며, 공개 값에서는 Q4_K_M이 UD-Q4_K_XL보다 mean KLD와 top-1 token 일치율에서 유리했다.

16GB VRAM 제약 환경에서 실무적으로 가장 중요한 포인트는 구성 단순화다. 작성자는 --fit on을 쓰되 배치 플래그를 제거한 조합에서 74.7 tok/s를 기록해, 기존 수동 offload 설정보다 빠른 결과를 제시했다. 반대로 self-speculative ngram은 대화형 워크로드에서 유의미한 가속을 만들지 못했고, 27B dense와 MXFP4_MOE는 해당 테스트 환경에서 속도 측면 이점이 제한적이었다고 보고했다.

해석 시 유의할 점

이 결과는 커뮤니티 벤치마크이며 다기관 통제 실험이 아니다. 원문도 이를 분명히 밝힌다. context 길이 민감도, 빌드 버전 차이, 메모리 제약으로 인한 부분 평가, CUDA와 Vulkan 같은 백엔드 차이를 함께 언급했다. 따라서 절대 순위로 보기보다, 유사한 소비자 GPU 환경에서의 튜닝 출발점으로 읽는 편이 안전하다.

로컬 추론 운영 시사점

결론적으로 MoE 로컬 추론 튜닝에서는 단일 옵션보다 구성 묶음 단위 벤치마크가 중요하며, 품질 지표도 PPL 단독이 아니라 KLD 같은 보조 지표를 병행해야 한다. 또한 자동 fit/offload는 기본값으로 신뢰하기보다 실제 워크로드에서 측정해 결정하는 절차가 필요하다는 점을 보여준다.

Reddit discussion thread | Referenced data repository

#gpu-inference

r/LocalLLaMA 후속 벤치마크: RTX 5080 16GB에서 Q4_K_M + fit-nobatch 조합 우세