LocalLLaMA가 다시 소환한 Qwen2-72B layer duplication 실험
Original: How I topped the Open LLM Leaderboard using 2x 4090 GPUs — no weights modified. View original →
LocalLLaMA가 다시 끌어올린 주장
LocalLLaMA에서 높은 반응을 얻은 글은 David Noel Ng의 장문 기술 글을 다시 조명했다. 핵심 주장은 매우 단순하지만 이상하다. Qwen2-72B의 중간 layer 7개 블록을 복제하되, weight는 하나도 바꾸지 않으면 Open LLM Leaderboard 계열 benchmark 점수가 올라갈 수 있다는 것이다. fine-tuning도 없고 gradient update도 없으며, 기존 모델의 일부 구간을 한 번 더 통과하게 만드는 구조 조정만 사용했다는 점이 포인트다.
블로그 글에 따르면 실험은 quantized model을 ExLlamaV2로 돌리며 2x RTX 4090 GPU에서 수행됐다. 저자는 80-layer 모델 기준 가능한 (i, j) duplication pair 3,240개를 훑는 방식으로 스캔을 만들고, full leaderboard 대신 hard math 추정 문제와 EQ-Bench 기반 social reasoning 문제를 proxy task로 사용했다. 보고된 최적 configuration은 (45, 52)로, layers 45부터 51까지를 한 번 더 실행해 모델의 유효 깊이를 72B에서 78B 수준으로 늘렸다고 설명한다.
왜 이 접근이 흥미로운가
- 학습이 아니라 inference-time architecture tweak만으로 성능 향상을 노렸다.
- 단일 layer 복제는 대체로 효과가 없고, circuit처럼 묶인 block 복제가 중요하다고 주장한다.
- 글에서 제시한 수치로는 MuSR +17.72%, MATH +8.16%를 포함해 6개 중 5개 benchmark가 개선됐다.
- 소비자용 GPU 환경에서도 검증 가능한 가설과 스캔 절차를 제시했다.
특히 흥미로운 부분은 성능 향상 자체보다 해석이다. 저자는 middle layer가 단순히 더 깊게 반복 가능한 균일한 층이 아니라, 완결된 reasoning circuit처럼 동작한다고 본다. 그래서 한 layer만 반복하면 거의 도움이 안 되지만, 경계가 맞는 block 전체를 다시 실행하면 모델이 같은 추론 서브루틴을 두 번째로 통과하며 더 정제된 표현을 만들 수 있다는 설명이다. 이는 mechanistic interpretability 관점에서도 검증 가능한 가설이다.
물론 어디까지나 blog post라는 점은 분명히 구분해야 한다. peer-reviewed paper가 아니고, “functional circuit” 해석 역시 저자의 가설이다. 그래도 이 글이 주목받는 이유는 분명하다. 거대한 training cluster 없이도, 소비자용 GPU와 inference 실험만으로 테스트 가능한 architecture 아이디어를 제시했고, LocalLLaMA 커뮤니티가 좋아하는 “garage engineering meets real benchmark deltas”의 전형을 보여줬기 때문이다.
Source: David Noel Ng's technical write-up. Community discussion: r/LocalLLaMA thread.
Related Articles
중요한 점은 inference cost가 이제 infrastructure 문제가 아니라 product constraint가 됐다는 데 있다. Cohere는 vLLM의 W4A8 path가 Hopper에서 W4A16 대비 TTFT 최대 58%, TPOT 최대 45% 빠르다고 밝혔다.
27B 모델이 Sonnet 4.6과 비빈다는 주장에 LocalLLaMA가 크게 들썩였지만, 댓글은 곧바로 벤치마크 과최적화와 실제 로컬 구동 조건으로 옮겨갔다.
LocalLLaMA의 열기는 “모델이 멍청해졌다”는 불평에서 끝나지 않고, provider routing과 quantization, peak-time behavior를 어떻게 측정할지로 번졌다. thread는 확정 증거보다 community가 느끼는 품질 불안의 크기를 보여준다.
Comments (0)
No comments yet. Be the first to comment!