Gemma 4 초기 평가는 섣부르다? llama.cpp 수정 이슈를 짚은 LocalLLaMA 토론
Original: Gemma 4 fixes in llama.cpp View original →
LocalLLaMA에서 빠르게 퍼진 이 토론은 Gemma 4 초기 평가를 그대로 믿기 어렵다는 문제를 제기한다. 요지는 단순하다. 많은 사용자가 model 자체를 평가한다고 생각하지만, 실제로는 아직 안정화되지 않은 llama.cpp runtime을 통해 Gemma 4를 보고 있다는 것이다. local model launch에서는 weights만이 아니라 parser, tokenizer, attention handling, quantization, memory behavior까지 포함한 전체 inference stack이 동시에 성숙해야 한다.
원문은 Gemma 4 지원과 관련된 여러 llama.cpp pull request를 직접 연결한다. 예를 들어 PR #21418, PR #21390, PR #21406 등이 언급된다. 작성자는 chat에서 looping 문제가 있었지만 OpenCode에서는 문제를 거의 보지 못했다고 적었고, overthinking/looping 현상도 prompt나 runtime fix의 영향을 받을 수 있다고 본다. 핵심은 Gemma 4가 완전히 solved되었다는 선언이 아니라, launch 직후의 나쁜 impression 상당수가 model quality보다 tooling lag에서 나올 수 있다는 지적이다.
댓글도 같은 방향으로 흘러간다. 한 사용자는 “llama.cpp를 업데이트해야 한다”고 단언하면서 4B model을 RTX 3070에서 초당 60 tokens 수준으로 돌리고 있다고 적었다. 또 다른 댓글은 이 패턴이 release 때마다 반복된다고 요약한다. 처음에는 model이 형편없어 보이고, tokenizer나 inference bugs가 고쳐진 뒤에야 실제 성능이 드러난다는 것이다. local LLM ecosystem이 community builds와 forks 중심으로 움직이는 지금, 이런 operational detail은 benchmark 숫자만큼 중요해졌다.
이 스레드가 흥미로운 이유는 평가 대상을 model에서 system 전체로 확장시키기 때문이다. local inference에서는 하나의 weak link만 있어도 launch 품질이 크게 왜곡된다. 그래서 LocalLLaMA 사용자들은 Gemma 4를 둘러싼 논쟁을 “좋은 model인가, 나쁜 model인가”가 아니라 “지금 보고 있는 failure가 어느 layer에서 발생하는가”라는 질문으로 다시 정리하고 있다. 실제 deployment에 더 가까운 관점이다.
Related Articles
DeepSeek 등이 도입해 주목받은 Multi-Token Prediction(MTP) 기능이 llama.cpp 마스터 브랜치에 공식 병합됐다. 로컬 LLM 추론 속도 향상에 기여할 오픈소스 이정표다.
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
llama.cpp에 멀티토큰 예측(MTP) 지원이 베타로 진입했다. 현재 Qwen3.5 MTP를 지원하며, 텐서 병렬 처리와 함께 vLLM과의 성능 격차를 좁힐 것으로 기대된다.
Comments (0)
No comments yet. Be the first to comment!