r/MachineLearning이 끌어올린 2x 4090 기반 LLM layer duplication 실험

왜 Reddit이 이 글을 밀어 올렸나

r/MachineLearning의 고득점 self-post는 David Noel Ng의 긴 기술 블로그를 다시 읽게 만든다. 핵심 주장은 이렇다. 그는 Qwen2-72B의 중간 layer stack에서 특정 7개 block을 복제해 모델 구조에 끼워 넣었고, weight를 바꾸거나 gradient descent를 돌리지 않은 상태에서도 당시 Open LLM Leaderboard 최상단에 올랐다고 설명한다. 일반적인 fine-tuning story가 아니라 model surgery에 가까운 접근이기 때문에 커뮤니티의 관심을 끌었다.

post와 blog가 특히 강조하는 지점은 duplication의 단위다. single layer를 하나 더 붙이면 효과가 없고, 너무 많은 layer를 늘려도 성능이 악화됐으며, 대략 7개 안팎의 middle-layer circuit처럼 보이는 block일 때만 개선이 나타났다는 것이다. 작성자는 이를 두고 pre-training이 layer stack 안에 discrete functional circuit를 새겨 넣는 것 같다고 해석한다. 이 가설은 아직 paper로 정리된 consensus가 아니라 개인 연구자의 reading이지만, mech interp와 architecture search를 동시에 자극하는 문제 제기라는 점에서 Reddit 반응이 컸다.

실무자에게 남는 의미와 한계

이 글이 더 흥미로운 이유는 compute scale의 역설 때문이다. 작성자는 이 작업의 출발점이 2x RTX 4090이라는 basement급 장비였다고 말한다. 즉, 수십억 달러짜리 training run이 아니라도 model behavior에 영향을 주는 구조적 조작을 찾을 수 있다는 메시지다. 동시에 검증 한계도 분명하다. 결과는 특정 benchmark regime와 특정 model family에서 나온 것이고, 더 넓은 재현과 공개 code 검증이 필요하다.

핵심 아이디어는 weight update가 아니라 layer block duplication이다.
관찰이 맞다면 model 내부의 reusable circuit 가설을 강화한다.
다만 unpublished result이므로 replication이 가장 중요하다.

그래서 이 post는 단순한 leaderboard bragging보다 더 큰 의미를 얻는다. open model 시대의 실험은 학계 밖 개인 연구자가 architecture-level insight를 던지는 방향으로도 갈 수 있다는 점을 보여주기 때문이다.

r/MachineLearning이 끌어올린 2x 4090 기반 LLM layer duplication 실험

왜 Reddit이 이 글을 밀어 올렸나

실무자에게 남는 의미와 한계

Related Articles

27B dense로 여기까지, Qwen3.6에 HN이 꽂힌 이유

Qwen3.6에 LocalLLaMA가 들뜬 이유: benchmark보다 agent가 고치는 모습이었다

M5 Max에서 돈 Qwen3.6, LocalLLaMA의 관심은 code를 밖으로 안 보내도 되나였다

Comments (0)

Leave a Comment

Related Articles

27B dense로 여기까지, Qwen3.6에 HN이 꽂힌 이유
HN은 Qwen3.6-27B를 벤치마크 승리보다 현실적으로 돌릴 수 있는 오픈 코딩 모델로 읽었다. 댓글도 점수표보다 메모리 요구량, self-hosting 가능성, dense 구조의 운영 단순성에 몰렸다.

Qwen3.6에 LocalLLaMA가 들뜬 이유: benchmark보다 agent가 고치는 모습이었다
LLM Reddit Apr 20, 2026 1 min read

M5 Max에서 돈 Qwen3.6, LocalLLaMA의 관심은 code를 밖으로 안 보내도 되나였다
LLM Reddit Apr 20, 2026 1 min read