단종 Intel Optane으로 1조 파라미터 모델을 초당 4토큰에 구동
Original: Computer build using Intel Optane Persistent Memory - Can run 1 trillion parameter model at over 4 tokens/sec View original →
1조 파라미터 모델의 로컬 실행
r/LocalLLaMA 커뮤니티에서 한 사용자가 Intel Optane 영구 메모리(PMem)를 활용해 Kimi K2.5 1조 파라미터 모델을 초당 4토큰 이상으로 로컬 실행하는 데 성공한 빌드를 공개했다. 677점 이상을 기록하며 LLM 커뮤니티의 큰 관심을 끌었다.
Intel Optane이란
Intel Optane PMem은 DIMM 폼팩터의 메모리 모듈로, DRAM과 SSD의 중간 특성을 갖는다. Intel이 제품 라인을 단종시키면서 중고 시장에서 동급 DRAM 용량보다 훨씬 저렴하게 구입할 수 있게 됐다.
빌드 구성
이 사용자는 Optane PMem을 메모리 모드로 운용해 768GB의 유효 RAM 용량을 확보했다. Kimi K2.5의 혼합 전문가(MoE) 아키텍처를 활용해 llama.cpp의 하이브리드 GPU/CPU 추론을 구성했으며, 12GB GPU에 어텐션 가중치와 덴스 레이어를 배치했다.
의미
1조 파라미터 모델의 로컬 실행은 지금까지 데이터센터급 하드웨어가 필요한 영역이었다. 중고 Optane으로 이를 가능하게 한 이 빌드는 LLM 추론의 접근성 확장에 새로운 가능성을 보여준다.
Related Articles
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
Daniel Vaughan의 Gemma 4 실험은 “local model도 Codex CLI에서 쓸 만한 agent가 될 수 있는가”를 실제 설정값과 실패 사례까지 포함해 검증했다. 핵심은 Apple Silicon에서 Ollama를 포기하고 llama.cpp와 `--jinja`, KV cache quantization, `web_search = "disabled"` 같은 세부 설정을 맞춰야 한다는 점이다.
LocalLLaMA가 반응한 포인트는 “번역 앱”이 아니라 detection, visual OCR, inpainting, local LLM을 한 번에 묶은 실제 workflow였다.
Comments (0)
No comments yet. Be the first to comment!