Skip to content

RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과

Original: 110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp View original →

Read in other languages: English日本語
LLM May 22, 2026 By Insights AI (Reddit) 1 min read Source

12GB VRAM에서 35B 모델 구동

LocalLLaMA의 한 사용자가 RTX 4070 Super 12GB에서 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공했다는 벤치마크를 공유했다. 소비자 GPU 단 한 장으로 35B 모델을 실용적 속도로 실행한 사례로 커뮤니티에서 큰 관심을 받았다.

표준 llama.cpp와의 차이

이 사용자는 원래 llama.cpp를 사용하다가 MTP(Multi-Token Prediction) PR이 메인에 합쳐진 후 성능이 급격히 저하되는 문제를 겪었다. ik_llama.cpp 포크로 전환했고 성능이 크게 향상됐다. 비교 벤치마크에서 표준 llama.cpp는 약 80-89 tok/s인 반면, ik_llama.cpp는 110 tok/s를 달성했다.

하드웨어 스펙

  • GPU: RTX 4070 Super 12GB (CUDA 13.1.1)
  • CPU: AMD Ryzen 7 9700X
  • RAM: 48GB DDR5-6000 EXPO I
  • OS: CachyOS with Plasma (X11)

로컬 LLM 성능의 발전

12GB VRAM 소비자 GPU 한 장으로 35B MoE 모델을 100 tok/s 이상으로 구동할 수 있다는 것은 로컬 AI 추론 기술이 빠르게 발전하고 있음을 보여준다. ik_llama.cpp는 CPU 오프로딩 최적화에 특히 강점이 있어 VRAM만으로 모델 전체를 올릴 수 없을 때 하이브리드 설정에서 두각을 나타낸다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment