LocalLLaMA가 다시 소환한 Qwen2-72B layer duplication 실험
Original: How I topped the Open LLM Leaderboard using 2x 4090 GPUs — no weights modified. View original →
LocalLLaMA가 다시 끌어올린 주장
LocalLLaMA에서 높은 반응을 얻은 글은 David Noel Ng의 장문 기술 글을 다시 조명했다. 핵심 주장은 매우 단순하지만 이상하다. Qwen2-72B의 중간 layer 7개 블록을 복제하되, weight는 하나도 바꾸지 않으면 Open LLM Leaderboard 계열 benchmark 점수가 올라갈 수 있다는 것이다. fine-tuning도 없고 gradient update도 없으며, 기존 모델의 일부 구간을 한 번 더 통과하게 만드는 구조 조정만 사용했다는 점이 포인트다.
블로그 글에 따르면 실험은 quantized model을 ExLlamaV2로 돌리며 2x RTX 4090 GPU에서 수행됐다. 저자는 80-layer 모델 기준 가능한 (i, j) duplication pair 3,240개를 훑는 방식으로 스캔을 만들고, full leaderboard 대신 hard math 추정 문제와 EQ-Bench 기반 social reasoning 문제를 proxy task로 사용했다. 보고된 최적 configuration은 (45, 52)로, layers 45부터 51까지를 한 번 더 실행해 모델의 유효 깊이를 72B에서 78B 수준으로 늘렸다고 설명한다.
왜 이 접근이 흥미로운가
- 학습이 아니라 inference-time architecture tweak만으로 성능 향상을 노렸다.
- 단일 layer 복제는 대체로 효과가 없고, circuit처럼 묶인 block 복제가 중요하다고 주장한다.
- 글에서 제시한 수치로는 MuSR +17.72%, MATH +8.16%를 포함해 6개 중 5개 benchmark가 개선됐다.
- 소비자용 GPU 환경에서도 검증 가능한 가설과 스캔 절차를 제시했다.
특히 흥미로운 부분은 성능 향상 자체보다 해석이다. 저자는 middle layer가 단순히 더 깊게 반복 가능한 균일한 층이 아니라, 완결된 reasoning circuit처럼 동작한다고 본다. 그래서 한 layer만 반복하면 거의 도움이 안 되지만, 경계가 맞는 block 전체를 다시 실행하면 모델이 같은 추론 서브루틴을 두 번째로 통과하며 더 정제된 표현을 만들 수 있다는 설명이다. 이는 mechanistic interpretability 관점에서도 검증 가능한 가설이다.
물론 어디까지나 blog post라는 점은 분명히 구분해야 한다. peer-reviewed paper가 아니고, “functional circuit” 해석 역시 저자의 가설이다. 그래도 이 글이 주목받는 이유는 분명하다. 거대한 training cluster 없이도, 소비자용 GPU와 inference 실험만으로 테스트 가능한 architecture 아이디어를 제시했고, LocalLLaMA 커뮤니티가 좋아하는 “garage engineering meets real benchmark deltas”의 전형을 보여줬기 때문이다.
Source: David Noel Ng's technical write-up. Community discussion: r/LocalLLaMA thread.
Related Articles
r/MachineLearning에서는 가중치 변경 없이 중간 7개 층 블록만 복제해 leaderboard 성능을 끌어올렸다는 실험 노트가 큰 관심을 받고 있다.
새로운 llama.cpp 변경은 <code>--reasoning-budget</code>를 template stub이 아니라 sampler 차원의 실제 제어로 바꾼다. LocalLLaMA thread는 긴 think loop를 줄이는 것과 answer quality를 지키는 것 사이의 tradeoff, 특히 local Qwen 3.5 환경에서의 의미를 집중적으로 논의했다.
NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.
Comments (0)
No comments yet. Be the first to comment!