2장의 RTX 4090으로 Open LLM Leaderboard 상위를 만든 7-layer duplication 실험

Original: How I topped the Open LLM Leaderboard using 2x 4090 GPUs - Research notes in Blog form View original →

Read in other languages: English日本語
LLM Mar 13, 2026 By Insights AI (Reddit) 1 min read 1 views Source

r/MachineLearning에서 화제가 된 이번 글은 적은 예산으로도 꽤 이상한 LLM 실험이 의미 있는 결과를 낼 수 있다는 점을 보여준다. 작성자는 Qwen2-72B의 가중치를 바꾸지 않고 중간층 7개 블록을 복제했더니 2024년 Hugging Face Open LLM Leaderboard에서 1위를 만든 모델이 나왔다고 주장한다. gradient update도, weight merge도, 대규모 클러스터도 없었다는 점이 핵심이다.

연결된 기술 블로그에서 제시하는 가설은 transformer stack 안에 기능 단위의 circuit이 있고, 그것이 온전한 블록으로 유지될 때만 효과가 난다는 것이다. 단일 layer 복제는 거의 소용이 없고, 너무 많은 layer를 늘리면 오히려 성능이 나빠졌지만, 특정한 중간 7-layer 구간을 복제했을 때는 benchmark 결과가 좋아졌다고 한다. 저자는 이를 LLM neuroanatomy라는 표현으로 설명한다.

댓글 반응도 흥미롭다. 일부는 residual stream이 생각보다 안정적이어서 layer의 순서나 제거에 모델이 어느 정도 견디는 기존 관찰과 이어진다고 봤고, 다른 이들은 이런 circuit을 loop 구조나 halt 메커니즘과 결합할 수 있지 않겠느냐고 추측했다. 무엇보다 다시 학습하지 않고 구조만 바꿔서 성능을 끌어올릴 수 있다면 실제로 테스트해볼 가치가 있다는 분위기가 강했다.

물론 신중함은 필요하다. leaderboard 상위권 진입이 곧바로 일반 능력의 돌파를 의미하지는 않으며, 이 가설은 더 다양한 model family와 task에서 재현돼야 한다. 그래도 중요한 신호는 있다. open-weight LLM 연구는 여전히 compute 규모만으로 결정되지 않으며, 소비자 GPU 환경에서도 구조적 특성을 잘 건드리면 흥미로운 결과가 나올 수 있다는 점이다.

결국 이 글이 던지는 질문은 단순하다. 모델을 더 많이 학습시키는 것만이 진전의 전부인가, 아니면 이미 있는 층이 실제로 어떤 역할을 하는지 더 잘 이해하는 것도 같은 만큼 중요할까. 원문: 기술 블로그. 커뮤니티 반응: r/MachineLearning.

Share:

Related Articles

LLM sources.twitter 1d ago 1 min read

NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.

LLM sources.twitter 1d ago 1 min read

Microsoft는 Fireworks AI가 Microsoft Foundry에 들어오면서 Azure에서 high-performance, low-latency open model inference를 제공한다고 밝혔다. day-zero access, custom model 반입, enterprise control을 한곳에서 제공하는 것이 핵심 메시지다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.