r/MachineLearning이 끌어올린 2x 4090 기반 LLM layer duplication 실험
Original: How I topped the Open LLM Leaderboard using 2x 4090 GPUs - Research notes in Blog form View original →
왜 Reddit이 이 글을 밀어 올렸나
r/MachineLearning의 고득점 self-post는 David Noel Ng의 긴 기술 블로그를 다시 읽게 만든다. 핵심 주장은 이렇다. 그는 Qwen2-72B의 중간 layer stack에서 특정 7개 block을 복제해 모델 구조에 끼워 넣었고, weight를 바꾸거나 gradient descent를 돌리지 않은 상태에서도 당시 Open LLM Leaderboard 최상단에 올랐다고 설명한다. 일반적인 fine-tuning story가 아니라 model surgery에 가까운 접근이기 때문에 커뮤니티의 관심을 끌었다.
post와 blog가 특히 강조하는 지점은 duplication의 단위다. single layer를 하나 더 붙이면 효과가 없고, 너무 많은 layer를 늘려도 성능이 악화됐으며, 대략 7개 안팎의 middle-layer circuit처럼 보이는 block일 때만 개선이 나타났다는 것이다. 작성자는 이를 두고 pre-training이 layer stack 안에 discrete functional circuit를 새겨 넣는 것 같다고 해석한다. 이 가설은 아직 paper로 정리된 consensus가 아니라 개인 연구자의 reading이지만, mech interp와 architecture search를 동시에 자극하는 문제 제기라는 점에서 Reddit 반응이 컸다.
실무자에게 남는 의미와 한계
이 글이 더 흥미로운 이유는 compute scale의 역설 때문이다. 작성자는 이 작업의 출발점이 2x RTX 4090이라는 basement급 장비였다고 말한다. 즉, 수십억 달러짜리 training run이 아니라도 model behavior에 영향을 주는 구조적 조작을 찾을 수 있다는 메시지다. 동시에 검증 한계도 분명하다. 결과는 특정 benchmark regime와 특정 model family에서 나온 것이고, 더 넓은 재현과 공개 code 검증이 필요하다.
- 핵심 아이디어는 weight update가 아니라 layer block duplication이다.
- 관찰이 맞다면 model 내부의 reusable circuit 가설을 강화한다.
- 다만 unpublished result이므로 replication이 가장 중요하다.
그래서 이 post는 단순한 leaderboard bragging보다 더 큰 의미를 얻는다. open model 시대의 실험은 학계 밖 개인 연구자가 architecture-level insight를 던지는 방향으로도 갈 수 있다는 점을 보여주기 때문이다.
Related Articles
HN은 Qwen3.6-27B를 벤치마크 승리보다 현실적으로 돌릴 수 있는 오픈 코딩 모델로 읽었다. 댓글도 점수표보다 메모리 요구량, self-hosting 가능성, dense 구조의 운영 단순성에 몰렸다.
r/LocalLLaMA가 900점 넘게 반응한 이유는 Qwen3.6 score표가 아니라, local coding agent가 canvas bug와 wave completion issue를 스스로 찾아 고쳤다는 사용기였다.
r/LocalLLaMA가 이 글을 끌어올린 이유는 “trust me bro”식 후기 안에 8-bit, 64k context, OpenCode, Android debugging이라는 실제 사용 조건이 들어 있었기 때문이다.
Comments (0)
No comments yet. Be the first to comment!