LLM Reddit Apr 12, 2026 1 min read
r/LocalLLaMA의 한 stress test는 Gemma 4 26B A4B가 llama.cpp에서 262,144 context window의 약 94% 지점에서도 일관성을 유지했다고 주장한다. 정식 benchmark는 아니지만, failure mode와 tuning 값을 함께 공개했다는 점에서 현장감 있는 자료다.
r/LocalLLaMA의 한 stress test는 Gemma 4 26B A4B가 llama.cpp에서 262,144 context window의 약 94% 지점에서도 일관성을 유지했다고 주장한다. 정식 benchmark는 아니지만, failure mode와 tuning 값을 함께 공개했다는 점에서 현장감 있는 자료다.
r/LocalLLaMA에 올라온 벤치마크는 Intel Arc Pro B70 32GB와 Intel vLLM fork 조합으로 Qwen3.5-27B int4를 어느 정도 실용적으로 서빙할 수 있음을 보여준다. 다만 tensor parallel보다 pipeline parallel이 더 유리했고, setup 안정화에도 적지 않은 시행착오가 필요했다.
r/LocalLLaMA의 한 현장 보고는 매우 구체적인 local inference workload를 throughput 중심으로 튜닝한 사례를 보여줬다. 작성자는 Qwen 3.5 27B로 markdown 문서를 분류하면서 약 2,000 tokens per second를 기록했다고 했고, 댓글에서는 실전 최적화 포인트가 추가로 논의됐다.
r/LocalLLaMA에서 Heretic 1.2 발표가 주목받았다. 게시글 기준으로 4-bit 로딩으로 VRAM 최대 70% 절감, MPOA 지원, VL 처리 확장, 자동 재개 기능이 핵심 업데이트다.