단종 Intel Optane으로 1조 파라미터 모델을 초당 4토큰에 구동

1조 파라미터 모델의 로컬 실행

r/LocalLLaMA 커뮤니티에서 한 사용자가 Intel Optane 영구 메모리(PMem)를 활용해 Kimi K2.5 1조 파라미터 모델을 초당 4토큰 이상으로 로컬 실행하는 데 성공한 빌드를 공개했다. 677점 이상을 기록하며 LLM 커뮤니티의 큰 관심을 끌었다.

Intel Optane이란

Intel Optane PMem은 DIMM 폼팩터의 메모리 모듈로, DRAM과 SSD의 중간 특성을 갖는다. Intel이 제품 라인을 단종시키면서 중고 시장에서 동급 DRAM 용량보다 훨씬 저렴하게 구입할 수 있게 됐다.

빌드 구성

이 사용자는 Optane PMem을 메모리 모드로 운용해 768GB의 유효 RAM 용량을 확보했다. Kimi K2.5의 혼합 전문가(MoE) 아키텍처를 활용해 llama.cpp의 하이브리드 GPU/CPU 추론을 구성했으며, 12GB GPU에 어텐션 가중치와 덴스 레이어를 배치했다.

의미

1조 파라미터 모델의 로컬 실행은 지금까지 데이터센터급 하드웨어가 필요한 영역이었다. 중고 Optane으로 이를 가능하게 한 이 빌드는 LLM 추론의 접근성 확장에 새로운 가능성을 보여준다.

LLM Reddit 2d ago 1 min read

12GB VRAM으로 Qwen3.6 35B 모델 초당 80 토큰 달성

llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.

#local-llm #qwen #llama-cpp

LLM Hacker News Apr 14, 2026 1 min read

Hacker News가 주목한 Gemma 4 local-agent 실전기: Codex CLI를 cloud 밖으로 옮기는 법

Daniel Vaughan의 Gemma 4 실험은 “local model도 Codex CLI에서 쓸 만한 agent가 될 수 있는가”를 실제 설정값과 실패 사례까지 포함해 검증했다. 핵심은 Apple Silicon에서 Ollama를 포기하고 llama.cpp와 `--jinja`, KV cache quantization, `web_search = "disabled"` 같은 세부 설정을 맞춰야 한다는 점이다.

#gemma-4 #codex-cli #local-llm

LLM Reddit Apr 22, 2026 1 min read