r/MachineLearning이 끌어올린 2x 4090 기반 LLM layer duplication 실험

Original: How I topped the Open LLM Leaderboard using 2x 4090 GPUs - Research notes in Blog form View original →

Read in other languages: English日本語
LLM Mar 11, 2026 By Insights AI (Reddit) 1 min read 1 views Source

왜 Reddit이 이 글을 밀어 올렸나

r/MachineLearning의 고득점 self-post는 David Noel Ng의 긴 기술 블로그를 다시 읽게 만든다. 핵심 주장은 이렇다. 그는 Qwen2-72B의 중간 layer stack에서 특정 7개 block을 복제해 모델 구조에 끼워 넣었고, weight를 바꾸거나 gradient descent를 돌리지 않은 상태에서도 당시 Open LLM Leaderboard 최상단에 올랐다고 설명한다. 일반적인 fine-tuning story가 아니라 model surgery에 가까운 접근이기 때문에 커뮤니티의 관심을 끌었다.

post와 blog가 특히 강조하는 지점은 duplication의 단위다. single layer를 하나 더 붙이면 효과가 없고, 너무 많은 layer를 늘려도 성능이 악화됐으며, 대략 7개 안팎의 middle-layer circuit처럼 보이는 block일 때만 개선이 나타났다는 것이다. 작성자는 이를 두고 pre-training이 layer stack 안에 discrete functional circuit를 새겨 넣는 것 같다고 해석한다. 이 가설은 아직 paper로 정리된 consensus가 아니라 개인 연구자의 reading이지만, mech interp와 architecture search를 동시에 자극하는 문제 제기라는 점에서 Reddit 반응이 컸다.

실무자에게 남는 의미와 한계

이 글이 더 흥미로운 이유는 compute scale의 역설 때문이다. 작성자는 이 작업의 출발점이 2x RTX 4090이라는 basement급 장비였다고 말한다. 즉, 수십억 달러짜리 training run이 아니라도 model behavior에 영향을 주는 구조적 조작을 찾을 수 있다는 메시지다. 동시에 검증 한계도 분명하다. 결과는 특정 benchmark regime와 특정 model family에서 나온 것이고, 더 넓은 재현과 공개 code 검증이 필요하다.

  • 핵심 아이디어는 weight update가 아니라 layer block duplication이다.
  • 관찰이 맞다면 model 내부의 reusable circuit 가설을 강화한다.
  • 다만 unpublished result이므로 replication이 가장 중요하다.

그래서 이 post는 단순한 leaderboard bragging보다 더 큰 의미를 얻는다. open model 시대의 실험은 학계 밖 개인 연구자가 architecture-level insight를 던지는 방향으로도 갈 수 있다는 점을 보여주기 때문이다.

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.