RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과
Original: 110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp View original →
12GB VRAM에서 35B 모델 구동
LocalLLaMA의 한 사용자가 RTX 4070 Super 12GB에서 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공했다는 벤치마크를 공유했다. 소비자 GPU 단 한 장으로 35B 모델을 실용적 속도로 실행한 사례로 커뮤니티에서 큰 관심을 받았다.
표준 llama.cpp와의 차이
이 사용자는 원래 llama.cpp를 사용하다가 MTP(Multi-Token Prediction) PR이 메인에 합쳐진 후 성능이 급격히 저하되는 문제를 겪었다. ik_llama.cpp 포크로 전환했고 성능이 크게 향상됐다. 비교 벤치마크에서 표준 llama.cpp는 약 80-89 tok/s인 반면, ik_llama.cpp는 110 tok/s를 달성했다.
하드웨어 스펙
- GPU: RTX 4070 Super 12GB (CUDA 13.1.1)
- CPU: AMD Ryzen 7 9700X
- RAM: 48GB DDR5-6000 EXPO I
- OS: CachyOS with Plasma (X11)
로컬 LLM 성능의 발전
12GB VRAM 소비자 GPU 한 장으로 35B MoE 모델을 100 tok/s 이상으로 구동할 수 있다는 것은 로컬 AI 추론 기술이 빠르게 발전하고 있음을 보여준다. ik_llama.cpp는 CPU 오프로딩 최적화에 특히 강점이 있어 VRAM만으로 모델 전체를 올릴 수 없을 때 하이브리드 설정에서 두각을 나타낸다.
Related Articles
r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.
LocalLLaMA가 반응한 이유는 새 모델 자랑이 아니라, --fit이 “VRAM에 다 들어가야 빠르다”는 체감 규칙을 흔들었기 때문이다.
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
Comments (0)
No comments yet. Be the first to comment!