LocalLLaMA가 다시 소환한 Qwen2-72B layer duplication 실험

LocalLLaMA가 다시 끌어올린 주장

LocalLLaMA에서 높은 반응을 얻은 글은 David Noel Ng의 장문 기술 글을 다시 조명했다. 핵심 주장은 매우 단순하지만 이상하다. Qwen2-72B의 중간 layer 7개 블록을 복제하되, weight는 하나도 바꾸지 않으면 Open LLM Leaderboard 계열 benchmark 점수가 올라갈 수 있다는 것이다. fine-tuning도 없고 gradient update도 없으며, 기존 모델의 일부 구간을 한 번 더 통과하게 만드는 구조 조정만 사용했다는 점이 포인트다.

블로그 글에 따르면 실험은 quantized model을 ExLlamaV2로 돌리며 2x RTX 4090 GPU에서 수행됐다. 저자는 80-layer 모델 기준 가능한 (i, j) duplication pair 3,240개를 훑는 방식으로 스캔을 만들고, full leaderboard 대신 hard math 추정 문제와 EQ-Bench 기반 social reasoning 문제를 proxy task로 사용했다. 보고된 최적 configuration은 (45, 52)로, layers 45부터 51까지를 한 번 더 실행해 모델의 유효 깊이를 72B에서 78B 수준으로 늘렸다고 설명한다.

왜 이 접근이 흥미로운가

학습이 아니라 inference-time architecture tweak만으로 성능 향상을 노렸다.
단일 layer 복제는 대체로 효과가 없고, circuit처럼 묶인 block 복제가 중요하다고 주장한다.
글에서 제시한 수치로는 MuSR +17.72%, MATH +8.16%를 포함해 6개 중 5개 benchmark가 개선됐다.
소비자용 GPU 환경에서도 검증 가능한 가설과 스캔 절차를 제시했다.

특히 흥미로운 부분은 성능 향상 자체보다 해석이다. 저자는 middle layer가 단순히 더 깊게 반복 가능한 균일한 층이 아니라, 완결된 reasoning circuit처럼 동작한다고 본다. 그래서 한 layer만 반복하면 거의 도움이 안 되지만, 경계가 맞는 block 전체를 다시 실행하면 모델이 같은 추론 서브루틴을 두 번째로 통과하며 더 정제된 표현을 만들 수 있다는 설명이다. 이는 mechanistic interpretability 관점에서도 검증 가능한 가설이다.

물론 어디까지나 blog post라는 점은 분명히 구분해야 한다. peer-reviewed paper가 아니고, “functional circuit” 해석 역시 저자의 가설이다. 그래도 이 글이 주목받는 이유는 분명하다. 거대한 training cluster 없이도, 소비자용 GPU와 inference 실험만으로 테스트 가능한 architecture 아이디어를 제시했고, LocalLLaMA 커뮤니티가 좋아하는 “garage engineering meets real benchmark deltas”의 전형을 보여줬기 때문이다.

Source: David Noel Ng's technical write-up. Community discussion: r/LocalLLaMA thread.

LocalLLaMA가 다시 소환한 Qwen2-72B layer duplication 실험

LocalLLaMA가 다시 끌어올린 주장

왜 이 접근이 흥미로운가

Related Articles

Cohere W4A8, vLLM Hopper에서 first-token latency 58% 단축 주장

Qwen3.6-27B가 Sonnet 급까지 왔나, LocalLLaMA가 바로 따진 기준들

모델들이 갑자기 둔해졌나? LocalLLaMA는 'silent downgrade' 감각을 검증 문제로 바꿨다

Comments (0)

Leave a Comment

Related Articles

Cohere W4A8, vLLM Hopper에서 first-token latency 58% 단축 주장

Qwen3.6-27B가 Sonnet 급까지 왔나, LocalLLaMA가 바로 따진 기준들
27B 모델이 Sonnet 4.6과 비빈다는 주장에 LocalLLaMA가 크게 들썩였지만, 댓글은 곧바로 벤치마크 과최적화와 실제 로컬 구동 조건으로 옮겨갔다.

모델들이 갑자기 둔해졌나? LocalLLaMA는 'silent downgrade' 감각을 검증 문제로 바꿨다
LLM Reddit Apr 17, 2026 1 min read