RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과

12GB VRAM에서 35B 모델 구동

LocalLLaMA의 한 사용자가 RTX 4070 Super 12GB에서 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공했다는 벤치마크를 공유했다. 소비자 GPU 단 한 장으로 35B 모델을 실용적 속도로 실행한 사례로 커뮤니티에서 큰 관심을 받았다.

표준 llama.cpp와의 차이

이 사용자는 원래 llama.cpp를 사용하다가 MTP(Multi-Token Prediction) PR이 메인에 합쳐진 후 성능이 급격히 저하되는 문제를 겪었다. ik_llama.cpp 포크로 전환했고 성능이 크게 향상됐다. 비교 벤치마크에서 표준 llama.cpp는 약 80-89 tok/s인 반면, ik_llama.cpp는 110 tok/s를 달성했다.

하드웨어 스펙

GPU: RTX 4070 Super 12GB (CUDA 13.1.1)
CPU: AMD Ryzen 7 9700X
RAM: 48GB DDR5-6000 EXPO I
OS: CachyOS with Plasma (X11)

로컬 LLM 성능의 발전

12GB VRAM 소비자 GPU 한 장으로 35B MoE 모델을 100 tok/s 이상으로 구동할 수 있다는 것은 로컬 AI 추론 기술이 빠르게 발전하고 있음을 보여준다. ik_llama.cpp는 CPU 오프로딩 최적화에 특히 강점이 있어 VRAM만으로 모델 전체를 올릴 수 없을 때 하이브리드 설정에서 두각을 나타낸다.

LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMA, Qwen3.5 27B를 local inference의 sweet spot으로 평가

r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.

#qwen #local-llm #llama-cpp

LLM Reddit 6d ago 1 min read