r/MachineLearningが押し上げた2x 4090のLLM layer duplication実験

なぜRedditで伸びたのか

r/MachineLearningの高評価postは、David Noel Ngによる長文blog LLM Neuroanatomy へ読者を導く。そこで語られている主張はかなり異色だ。彼はQwen2-72Bの中間部にある特定の7-layer blockを複製し、weightを一切変更せず、gradient descentも回さないままOpen LLM Leaderboardの上位に到達したと説明する。通常のfine-tuningやweight mergeではなく、学習済みmodelの内部構造そのものに手を入れる話なので、Redditで強く反応が出た。

議論の中心にあるのは、効果が出る単位の細かさだ。postによれば、single layerの複製では変化がなく、少なすぎても多すぎても改善しない。およそ7層前後のcircuit-sized blockだけが効いたという。Ngはこれを、pretrainingがtransformer stackの中に離散的なfunctional circuitを刻み込んでいる可能性として解釈する。もちろんpeer-reviewed paperではなく、まだ広い合意がある結果でもない。それでも、mechanistic interpretabilityとarchitecture experimentationの両方に接続するため、研究者と実務者の両方を刺激しやすい。

なぜ実務家も気にするのか

Redditがもう一つ注目したのはcomputeの規模だ。この研究の出発点はhyperscale clusterではなく2x RTX 4090だったとされる。つまり、open model時代には個人レベルのhardwareでもarchitecture-level insightを探る余地があるということだ。ただし本当に重要なのは再現性である。特定のbenchmarkやmodel familyで見えた効果が、他のsetupでも成立するかはまだ開かれている。

介入の本体はweight更新ではなくlayer block duplicationである。
仮説が正しければ、middle layerに再利用可能なcircuitがあることになる。
次の焦点はmodel横断のreplicationだ。

だからこのthreadは単なる自慢話で終わらなかった。大胆な経験的主張と、他人が実際に試せるmechanismの両方を備えていたからである。

r/MachineLearningが押し上げた2x 4090のLLM layer duplication実験

なぜRedditで伸びたのか

なぜ実務家も気にするのか

Related Articles

110 tok/s on a 35B Model with 12GB VRAM Using ik_llama.cpp

Qwen3.7-Max Joins the Frontier: Matches GPT 5.4 on Artificial Analysis Rankings

Qwen3.6 35B Transforms Workflows Through Skill-Based Prompting

Related Articles

110 tok/s on a 35B Model with 12GB VRAM Using ik_llama.cpp
LLM Reddit May 22, 2026 1 min read

Qwen3.7-Max Joins the Frontier: Matches GPT 5.4 on Artificial Analysis Rankings
LLM Hacker News May 20, 2026 1 min read

Qwen3.6 35B Transforms Workflows Through Skill-Based Prompting
LLM Reddit May 22, 2026 1 min read