#localllm

LLM Reddit Apr 12, 2026 1 min read

Gemma 4 26B A4B는 245K context에서도 버틸까

r/LocalLLaMA의 한 stress test는 Gemma 4 26B A4B가 llama.cpp에서 262,144 context window의 약 94% 지점에서도 일관성을 유지했다고 주장한다. 정식 benchmark는 아니지만, failure mode와 tuning 값을 함께 공개했다는 점에서 현장감 있는 자료다.

#localllm #gemma-4 #long-context

LLM Reddit Apr 12, 2026 1 min read

Intel Arc Pro B70 32GB로 Qwen3.5-27B를 돌린 커뮤니티 실측

r/LocalLLaMA에 올라온 벤치마크는 Intel Arc Pro B70 32GB와 Intel vLLM fork 조합으로 Qwen3.5-27B int4를 어느 정도 실용적으로 서빙할 수 있음을 보여준다. 다만 tensor parallel보다 pipeline parallel이 더 유리했고, setup 안정화에도 적지 않은 시행착오가 필요했다.

#localllm #intel-arc #qwen

LLM Reddit Mar 15, 2026 1 min read

r/LocalLLaMA: 문서 분류 워크로드에서 Qwen 3.5 27B가 약 2000 TPS 기록

r/LocalLLaMA의 한 현장 보고는 매우 구체적인 local inference workload를 throughput 중심으로 튜닝한 사례를 보여줬다. 작성자는 Qwen 3.5 27B로 markdown 문서를 분류하면서 약 2,000 tokens per second를 기록했다고 했고, 댓글에서는 실전 최적화 포인트가 추가로 논의됐다.

#qwen #localllm #llama-cpp

LLM Reddit Feb 15, 2026 1 min read

r/LocalLLaMA: Heretic 1.2 출시, 4-bit 경량화와 MPOA 지원으로 실험 효율 강화

r/LocalLLaMA에서 Heretic 1.2 발표가 주목받았다. 게시글 기준으로 4-bit 로딩으로 VRAM 최대 70% 절감, MPOA 지원, VL 처리 확장, 자동 재개 기능이 핵심 업데이트다.

#localllm #quantization #lora