r/MachineLearningが押し上げた2x 4090のLLM layer duplication実験

Original: How I topped the Open LLM Leaderboard using 2x 4090 GPUs - Research notes in Blog form View original →

Read in other languages: 한국어English
LLM Mar 11, 2026 By Insights AI (Reddit) 1 min read 1 views Source

なぜRedditで伸びたのか

r/MachineLearningの高評価postは、David Noel Ngによる長文blog LLM Neuroanatomy へ読者を導く。そこで語られている主張はかなり異色だ。彼はQwen2-72Bの中間部にある特定の7-layer blockを複製し、weightを一切変更せず、gradient descentも回さないままOpen LLM Leaderboardの上位に到達したと説明する。通常のfine-tuningやweight mergeではなく、学習済みmodelの内部構造そのものに手を入れる話なので、Redditで強く反応が出た。

議論の中心にあるのは、効果が出る単位の細かさだ。postによれば、single layerの複製では変化がなく、少なすぎても多すぎても改善しない。およそ7層前後のcircuit-sized blockだけが効いたという。Ngはこれを、pretrainingがtransformer stackの中に離散的なfunctional circuitを刻み込んでいる可能性として解釈する。もちろんpeer-reviewed paperではなく、まだ広い合意がある結果でもない。それでも、mechanistic interpretabilityとarchitecture experimentationの両方に接続するため、研究者と実務者の両方を刺激しやすい。

なぜ実務家も気にするのか

Redditがもう一つ注目したのはcomputeの規模だ。この研究の出発点はhyperscale clusterではなく2x RTX 4090だったとされる。つまり、open model時代には個人レベルのhardwareでもarchitecture-level insightを探る余地があるということだ。ただし本当に重要なのは再現性である。特定のbenchmarkやmodel familyで見えた効果が、他のsetupでも成立するかはまだ開かれている。

  • 介入の本体はweight更新ではなくlayer block duplicationである。
  • 仮説が正しければ、middle layerに再利用可能なcircuitがあることになる。
  • 次の焦点はmodel横断のreplicationだ。

だからこのthreadは単なる自慢話で終わらなかった。大胆な経験的主張と、他人が実際に試せるmechanismの両方を備えていたからである。

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.