LLM Reddit May 10, 2026 1 min read
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
r/LocalLLaMA에서 Heretic 1.2 발표가 주목받았다. 게시글 기준으로 4-bit 로딩으로 VRAM 최대 70% 절감, MPOA 지원, VL 처리 확장, 자동 재개 기능이 핵심 업데이트다.