12GB VRAM으로 Qwen3.6 35B 모델 초당 80 토큰 달성

Original: 80 tok/sec and 128K context on 12GB VRAM with Qwen3.6 35B A3B and llama.cpp MTP View original →

Read in other languages: English日本語
LLM May 10, 2026 By Insights AI (Reddit) 1 min read Source

주목할 만한 성과

로컬 LLM 커뮤니티 r/LocalLLaMA에서 12GB VRAM GPU 사용자가 Qwen3.6 35B A3B 모델을 초당 80토큰 이상의 속도로 구동하는 설정을 공개해 큰 반응을 얻었다. 35B 파라미터 모델을 소비자급 그래픽 카드로 이 속도로 실행한다는 것은 불과 몇 달 전만 해도 어려운 일이었다.

핵심 기술: llama.cpp MTP

이 성과의 핵심은 llama.cpp의 MTP(Multi-Token Prediction) 기능이다. MTP는 드래프트 모델이 여러 토큰을 미리 예측하면 메인 모델이 배치로 검증하는 방식으로, 80% 이상의 드래프트 수락률을 달성했다. 출력 품질을 유지하면서 실질적인 처리 속도를 크게 높인다.

설정 요약

  • 모델: Qwen3.6 35B A3B (양자화 버전)
  • 컨텍스트: 128K 토큰
  • 속도: 80+ 토큰/초
  • 드래프트 수락률: 80%+
  • 필요 VRAM: 12GB

의미

12GB VRAM은 RTX 3060~4070 수준의 일반 소비자 GPU다. 이 등급 하드웨어로 35B 모델을 실용적인 속도로 구동할 수 있게 됐다는 것은 로컬 AI 민주화 측면에서 의미 있는 진전이다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment