#llama-cpp

LLM Hacker News Jul 16, 2026 1 min read

13년 된 Xeon에서 Gemma 4 26B, GPU 없이 5 tok/s

HN의 논점은 “느리지만 된다”가 아니라 비용과 제어권이었다. 오래된 dual Xeon E5-2690 v2가 ik_llama.cpp 패치로 Gemma 4 26B-A4B를 CPU-only로 돌리며 local inference의 현실선을 다시 그었다.

#gemma #cpu-inference #llama-cpp

LLM Reddit May 22, 2026 1 min read

RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과

LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.

#llama-cpp #qwen #local-llm

LLM Reddit May 12, 2026 1 min read

단종 Intel Optane으로 1조 파라미터 모델을 초당 4토큰에 구동

단종된 Intel Optane 영구 메모리를 중고 시장에서 구입해 768GB RAM 시스템을 구성하고, Kimi K2.5 1조 파라미터 모델을 로컬에서 초당 4토큰 이상으로 실행한 사례가 공개됐다.

#intel-optane #local-llm #llama-cpp

LLM Reddit May 10, 2026 1 min read

12GB VRAM으로 Qwen3.6 35B 모델 초당 80 토큰 달성

llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.

#local-llm #qwen #llama-cpp

LLM Reddit May 4, 2026 1 min read

llama.cpp, 멀티토큰 예측(MTP) 베타 진입

llama.cpp에 멀티토큰 예측(MTP) 지원이 베타로 진입했다. 현재 Qwen3.5 MTP를 지원하며, 텐서 병렬 처리와 함께 vLLM과의 성능 격차를 좁힐 것으로 기대된다.

#llama-cpp #mtp #local-llm

LLM Reddit Apr 29, 2026 1 min read

Qwen 3.6 27B 양자화 비교, LocalLLaMA가 꽂힌 건 Q4_K_M… 그런데 숫자 논쟁

LocalLLaMA가 먼저 반긴 건 숫자 자체보다 “이런 비교 더 필요하다”는 분위기였다. 다만 Q4_K_M이 Q8_0보다 실전형으로 보인다는 결론이 나오자, 곧바로 오차 범위와 KV 캐시 설정을 따지는 검증 모드로 들어갔다.

#qwen #gguf #quantization

LLM Reddit Apr 28, 2026 2 min read

16GB VRAM의 탈출구? LocalLLaMA가 꺼낸 “묵은 GPU 한 장” 해법

LocalLLaMA가 이 글에 반응한 이유는 명확했다. 27B 모델을 두 장의 제각각인 GPU VRAM 안에만 가둘 수 있다면, 느린 보조 카드라도 시스템 RAM으로 쏟아지는 것보다는 낫다는 아주 실용적인 주장 때문이었다.

#local-llms #vram #multi-gpu

LLM Reddit Apr 22, 2026 1 min read

Rust·llama.cpp manga translator, LocalLLaMA가 본 local OCR pipeline의 손맛

LocalLLaMA가 반응한 포인트는 “번역 앱”이 아니라 detection, visual OCR, inpainting, local LLM을 한 번에 묶은 실제 workflow였다.

#llama-cpp #ocr #local-llm

LLM Reddit Apr 22, 2026 1 min read

llama.cpp --fit, 32GB VRAM 장벽을 다시 계산하게 한 LocalLLaMA

LocalLLaMA가 반응한 이유는 새 모델 자랑이 아니라, --fit이 “VRAM에 다 들어가야 빠르다”는 체감 규칙을 흔들었기 때문이다.

#llama-cpp #local-llm #vram

LLM Reddit Apr 19, 2026 1 min read

Qwen3.6 79 t/s 글에서 r/LocalLLaMA가 본 진짜 변수: --n-cpu-moe

r/LocalLLaMA가 이 글에 반응한 이유는 숫자가 구체적이었기 때문이다: RTX 5070 Ti에서 128K context와 79 t/s를 만든 핵심이 flag 하나로 좁혀졌다.

#qwen #llama-cpp #local-llm

LLM Reddit Apr 16, 2026 1 min read

VRAM에 자주 쓰는 expert만 올리자, LocalLLaMA가 본 27% 속도 향상

LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.

#local-llm #llama-cpp #moe

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMA가 꽂힌 자동 튜닝, Qwen3.5-27B가 40 tok/s까지 올랐다

LocalLLaMA가 반응한 포인트는 “LLM이 스스로 빨라진다”는 농담 같은 구조가 실제 benchmark 숫자로 이어졌다는 점이었다. 작성자는 llm-server v2의 --ai-tune이 llama-server help를 context로 읽고 flag 조합을 돌며 fastest config를 cache한다고 설명했고, Qwen3.5-27B Q4_K_M은 18.5 tok/s에서 40.05 tok/s까지 올라갔다고 공유했다.

#local-llm #llama-cpp #optimization