Gemma 4 26B A4B는 245K context에서도 버틸까

커뮤니티가 본 Gemma 4의 긴 context

2026년 4월 12일 기준 r/LocalLLaMA에서 161 score와 71 comments를 모은 이 글은, Gemma 4 26B A4B를 262,144 context window에 가깝게 밀어붙인 실사용 stress test를 공유한다. 작성자는 Reddit posts, documentation, 그리고 llama.cpp raw files를 대량으로 넣어 VRAM 사용량과 응답 일관성을 확인했고, 245,283 / 262,144, 즉 약 94% 수준에서도 특정 사용자의 발언을 정확히 찾아 답할 수 있었다고 적었다.

글은 단순한 자랑보다 failure mode와 tuning 과정을 함께 적었다는 점이 눈에 띈다. 작성자에 따르면 100K context를 넘기면 model이 자기 생각을 반복하거나 self-questioning loop에 빠지는 일이 있었고, 이를 줄이기 위해 temperature를 낮추고 repeat penalty를 1.17 또는 1.18까지 올렸다. 이런 조정 뒤에는 2초에서 5초 사이에 관련 내용을 되짚는 응답을 얻을 수 있었다고 한다.

포스트에 포함된 실전 설정

context size는 262144, GPU layers는 99로 설정했다.
top_p 0.95, top_k 40, min_p 0.05, repeat_penalty 1.17을 사용했다.
batch와 microbatch는 512, cache RAM은 2048로 맞췄고, 최신 llama.cpp와 최신 Unsloth GGUF를 사용했다고 적었다.
작성자는 같은 세션에서 real-time NVIDIA SMI script 문제를 해결했으며, Gemini 3.1은 fresh session에서 이 문제를 고치지 못했다고 덧붙였다.

어떻게 읽어야 하나

이 결과는 재현성까지 검증된 논문형 benchmark가 아니라 개인 환경의 community report다. 하지만 local model 사용자는 바로 이런 디테일을 원한다. 어디서 model이 무너지는지, 어떤 sampling 값이 loop를 줄였는지, 최신 build가 얼마나 중요한지 같은 운영 단서가 들어 있기 때문이다. 긴 context marketing이 넘치는 시점에, 실제 실패 패턴과 설정 값을 같이 공개한 사례라는 점에서 참고 가치가 있다.

원문: r/LocalLLaMA post.

Gemma 4 26B A4B는 245K context에서도 버틸까

커뮤니티가 본 Gemma 4의 긴 context

포스트에 포함된 실전 설정

어떻게 읽어야 하나

Related Articles

Gemma 4 GGUF를 다시 받아야 하나, Reddit이 짚은 llama.cpp 수정들

Gemma 4 초기 평가는 섣부르다? llama.cpp 수정 이슈를 짚은 LocalLLaMA 토론

LocalLLaMA 벤치마크, Gemma 4 31B speculative decoding 평균 29% 속도 향상 보고

Comments (0)

Leave a Comment

Related Articles

Gemma 4 GGUF를 다시 받아야 하나, Reddit이 짚은 llama.cpp 수정들
LLM Reddit Apr 9, 2026 1 min read

Gemma 4 초기 평가는 섣부르다? llama.cpp 수정 이슈를 짚은 LocalLLaMA 토론
LLM Reddit Apr 5, 2026 1 min read

LocalLLaMA 벤치마크, Gemma 4 31B speculative decoding 평균 29% 속도 향상 보고
LLM Reddit Apr 12, 2026 1 min read