r/MachineLearning이 끌어올린 2x 4090 기반 LLM layer duplication 실험
Original: How I topped the Open LLM Leaderboard using 2x 4090 GPUs - Research notes in Blog form View original →
왜 Reddit이 이 글을 밀어 올렸나
r/MachineLearning의 고득점 self-post는 David Noel Ng의 긴 기술 블로그를 다시 읽게 만든다. 핵심 주장은 이렇다. 그는 Qwen2-72B의 중간 layer stack에서 특정 7개 block을 복제해 모델 구조에 끼워 넣었고, weight를 바꾸거나 gradient descent를 돌리지 않은 상태에서도 당시 Open LLM Leaderboard 최상단에 올랐다고 설명한다. 일반적인 fine-tuning story가 아니라 model surgery에 가까운 접근이기 때문에 커뮤니티의 관심을 끌었다.
post와 blog가 특히 강조하는 지점은 duplication의 단위다. single layer를 하나 더 붙이면 효과가 없고, 너무 많은 layer를 늘려도 성능이 악화됐으며, 대략 7개 안팎의 middle-layer circuit처럼 보이는 block일 때만 개선이 나타났다는 것이다. 작성자는 이를 두고 pre-training이 layer stack 안에 discrete functional circuit를 새겨 넣는 것 같다고 해석한다. 이 가설은 아직 paper로 정리된 consensus가 아니라 개인 연구자의 reading이지만, mech interp와 architecture search를 동시에 자극하는 문제 제기라는 점에서 Reddit 반응이 컸다.
실무자에게 남는 의미와 한계
이 글이 더 흥미로운 이유는 compute scale의 역설 때문이다. 작성자는 이 작업의 출발점이 2x RTX 4090이라는 basement급 장비였다고 말한다. 즉, 수십억 달러짜리 training run이 아니라도 model behavior에 영향을 주는 구조적 조작을 찾을 수 있다는 메시지다. 동시에 검증 한계도 분명하다. 결과는 특정 benchmark regime와 특정 model family에서 나온 것이고, 더 넓은 재현과 공개 code 검증이 필요하다.
- 핵심 아이디어는 weight update가 아니라 layer block duplication이다.
- 관찰이 맞다면 model 내부의 reusable circuit 가설을 강화한다.
- 다만 unpublished result이므로 replication이 가장 중요하다.
그래서 이 post는 단순한 leaderboard bragging보다 더 큰 의미를 얻는다. open model 시대의 실험은 학계 밖 개인 연구자가 architecture-level insight를 던지는 방향으로도 갈 수 있다는 점을 보여주기 때문이다.
Related Articles
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.
LocalLLaMA에서 재조명된 글은 Qwen2-72B의 중간 7개 layer block을 weight 수정 없이 반복 실행해 benchmark를 끌어올렸다는 David Noel Ng의 실험을 다뤘다.
높은 점수를 받은 LocalLLaMA 글은 16GB M1 Pro에서 Qwen 3.5 9B가 memory recall과 기본 tool calling을 실제 agent 작업에 쓸 만큼 처리했지만, creative reasoning은 여전히 frontier model보다 뒤처졌다고 전했다.
Comments (0)
No comments yet. Be the first to comment!