2장의 RTX 4090으로 Open LLM Leaderboard 상위를 만든 7-layer duplication 실험

r/MachineLearning에서 화제가 된 이번 글은 적은 예산으로도 꽤 이상한 LLM 실험이 의미 있는 결과를 낼 수 있다는 점을 보여준다. 작성자는 Qwen2-72B의 가중치를 바꾸지 않고 중간층 7개 블록을 복제했더니 2024년 Hugging Face Open LLM Leaderboard에서 1위를 만든 모델이 나왔다고 주장한다. gradient update도, weight merge도, 대규모 클러스터도 없었다는 점이 핵심이다.

연결된 기술 블로그에서 제시하는 가설은 transformer stack 안에 기능 단위의 circuit이 있고, 그것이 온전한 블록으로 유지될 때만 효과가 난다는 것이다. 단일 layer 복제는 거의 소용이 없고, 너무 많은 layer를 늘리면 오히려 성능이 나빠졌지만, 특정한 중간 7-layer 구간을 복제했을 때는 benchmark 결과가 좋아졌다고 한다. 저자는 이를 LLM neuroanatomy라는 표현으로 설명한다.

댓글 반응도 흥미롭다. 일부는 residual stream이 생각보다 안정적이어서 layer의 순서나 제거에 모델이 어느 정도 견디는 기존 관찰과 이어진다고 봤고, 다른 이들은 이런 circuit을 loop 구조나 halt 메커니즘과 결합할 수 있지 않겠느냐고 추측했다. 무엇보다 다시 학습하지 않고 구조만 바꿔서 성능을 끌어올릴 수 있다면 실제로 테스트해볼 가치가 있다는 분위기가 강했다.

물론 신중함은 필요하다. leaderboard 상위권 진입이 곧바로 일반 능력의 돌파를 의미하지는 않으며, 이 가설은 더 다양한 model family와 task에서 재현돼야 한다. 그래도 중요한 신호는 있다. open-weight LLM 연구는 여전히 compute 규모만으로 결정되지 않으며, 소비자 GPU 환경에서도 구조적 특성을 잘 건드리면 흥미로운 결과가 나올 수 있다는 점이다.

결국 이 글이 던지는 질문은 단순하다. 모델을 더 많이 학습시키는 것만이 진전의 전부인가, 아니면 이미 있는 층이 실제로 어떤 역할을 하는지 더 잘 이해하는 것도 같은 만큼 중요할까. 원문: 기술 블로그. 커뮤니티 반응: r/MachineLearning.

2장의 RTX 4090으로 Open LLM Leaderboard 상위를 만든 7-layer duplication 실험

Related Articles

Gemma 4 12B, 별도 인코더 없이 노트북용 멀티모달 추론으로 Apache 2.0 공개

Hacker News가 주목한 최신 LLM architecture 시각 레퍼런스

Reddit가 주목한 Stanford의 공개 CS25 Transformers 강의, Spring 2026 시작