r/MachineLearningが押し上げた2x 4090のLLM layer duplication実験
Original: How I topped the Open LLM Leaderboard using 2x 4090 GPUs - Research notes in Blog form View original →
なぜRedditで伸びたのか
r/MachineLearningの高評価postは、David Noel Ngによる長文blog LLM Neuroanatomy へ読者を導く。そこで語られている主張はかなり異色だ。彼はQwen2-72Bの中間部にある特定の7-layer blockを複製し、weightを一切変更せず、gradient descentも回さないままOpen LLM Leaderboardの上位に到達したと説明する。通常のfine-tuningやweight mergeではなく、学習済みmodelの内部構造そのものに手を入れる話なので、Redditで強く反応が出た。
議論の中心にあるのは、効果が出る単位の細かさだ。postによれば、single layerの複製では変化がなく、少なすぎても多すぎても改善しない。およそ7層前後のcircuit-sized blockだけが効いたという。Ngはこれを、pretrainingがtransformer stackの中に離散的なfunctional circuitを刻み込んでいる可能性として解釈する。もちろんpeer-reviewed paperではなく、まだ広い合意がある結果でもない。それでも、mechanistic interpretabilityとarchitecture experimentationの両方に接続するため、研究者と実務者の両方を刺激しやすい。
なぜ実務家も気にするのか
Redditがもう一つ注目したのはcomputeの規模だ。この研究の出発点はhyperscale clusterではなく2x RTX 4090だったとされる。つまり、open model時代には個人レベルのhardwareでもarchitecture-level insightを探る余地があるということだ。ただし本当に重要なのは再現性である。特定のbenchmarkやmodel familyで見えた効果が、他のsetupでも成立するかはまだ開かれている。
- 介入の本体はweight更新ではなくlayer block duplicationである。
- 仮説が正しければ、middle layerに再利用可能なcircuitがあることになる。
- 次の焦点はmodel横断のreplicationだ。
だからこのthreadは単なる自慢話で終わらなかった。大胆な経験的主張と、他人が実際に試せるmechanismの両方を備えていたからである。
Related Articles
r/LocalLLaMAが900 points超まで反応した理由はscore表ではない。local coding agentがcanvas bugとwave completion issueを見つけて直したという使用感だった。
r/LocalLLaMAがこの投稿を押し上げたのは、“trust me bro”な体験談の中に8-bit、64k context、OpenCode、Android debuggingという実使用条件が入っていたからだ。
重要なのは、open-weight 27B dense modelがはるかに大きいcoding systemとagent taskで正面比較されていることだ。Qwenのmodel cardではSWE-bench VerifiedがQwen3.6-27Bで77.2、Qwen3.5-397B-A17Bで76.2、licenseはApache 2.0となっている。
Comments (0)
No comments yet. Be the first to comment!