r/LocalLLaMA 후속 벤치마크: RTX 5080 16GB에서 Q4_K_M + fit-nobatch 조합 우세
Original: Follow-up: Qwen3.5-35B-A3B — 7 community-requested experiments on RTX 5080 16GB View original →
이번 Reddit 글의 가치
r/LocalLLaMA의 후속 벤치마크 글은 크롤링 시점 기준 494 업보트와 139 댓글을 기록했다. 작성자는 커뮤니티 요청을 반영해 7개 추가 실험을 수행했고, 환경은 RTX 5080 16GB, Ryzen 9 9950X, RAM 128GB, CUDA 12.8 기반 llama.cpp 소스 빌드로 명시했다. 단발성 수치 나열이 아니라 수정 내역과 제한 조건까지 함께 적어 재현 관점에서 참고 가치가 크다.
공유된 핵심 결과
게시글에 따르면 KV cache를 q8_0로 두는 설정은 공유된 PPL 표에서 영향이 매우 작았고, 처리량 이점이 유지됐다. 그래서 -ctk q8_0 -ctv q8_0 권고를 계속 유지했다. 또한 PPL만 보지 않고 KL divergence를 추가해 비교했으며, 공개 값에서는 Q4_K_M이 UD-Q4_K_XL보다 mean KLD와 top-1 token 일치율에서 유리했다.
16GB VRAM 제약 환경에서 실무적으로 가장 중요한 포인트는 구성 단순화다. 작성자는 --fit on을 쓰되 배치 플래그를 제거한 조합에서 74.7 tok/s를 기록해, 기존 수동 offload 설정보다 빠른 결과를 제시했다. 반대로 self-speculative ngram은 대화형 워크로드에서 유의미한 가속을 만들지 못했고, 27B dense와 MXFP4_MOE는 해당 테스트 환경에서 속도 측면 이점이 제한적이었다고 보고했다.
해석 시 유의할 점
이 결과는 커뮤니티 벤치마크이며 다기관 통제 실험이 아니다. 원문도 이를 분명히 밝힌다. context 길이 민감도, 빌드 버전 차이, 메모리 제약으로 인한 부분 평가, CUDA와 Vulkan 같은 백엔드 차이를 함께 언급했다. 따라서 절대 순위로 보기보다, 유사한 소비자 GPU 환경에서의 튜닝 출발점으로 읽는 편이 안전하다.
로컬 추론 운영 시사점
결론적으로 MoE 로컬 추론 튜닝에서는 단일 옵션보다 구성 묶음 단위 벤치마크가 중요하며, 품질 지표도 PPL 단독이 아니라 KLD 같은 보조 지표를 병행해야 한다. 또한 자동 fit/offload는 기본값으로 신뢰하기보다 실제 워크로드에서 측정해 결정하는 절차가 필요하다는 점을 보여준다.
Related Articles
LocalLLaMA가 먼저 반긴 건 숫자 자체보다 “이런 비교 더 필요하다”는 분위기였다. 다만 Q4_K_M이 Q8_0보다 실전형으로 보인다는 결론이 나오자, 곧바로 오차 범위와 KV 캐시 설정을 따지는 검증 모드로 들어갔다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
patched llama.cpp로 Qwen 3.5-9B를 MacBook Air M4 16 GB와 20,000-token context에서 돌렸다는 LocalLLaMA 게시물은 이번 2026년 4월 4일 크롤링에서 1,159 upvotes와 193 comments를 기록했고, TurboQuant를 단순 연구 뉴스가 아닌 실제 local inference 화제로 끌어올렸다.