r/MachineLearningが押し上げた2x 4090のLLM layer duplication実験
Original: How I topped the Open LLM Leaderboard using 2x 4090 GPUs - Research notes in Blog form View original →
なぜRedditで伸びたのか
r/MachineLearningの高評価postは、David Noel Ngによる長文blog LLM Neuroanatomy へ読者を導く。そこで語られている主張はかなり異色だ。彼はQwen2-72Bの中間部にある特定の7-layer blockを複製し、weightを一切変更せず、gradient descentも回さないままOpen LLM Leaderboardの上位に到達したと説明する。通常のfine-tuningやweight mergeではなく、学習済みmodelの内部構造そのものに手を入れる話なので、Redditで強く反応が出た。
議論の中心にあるのは、効果が出る単位の細かさだ。postによれば、single layerの複製では変化がなく、少なすぎても多すぎても改善しない。およそ7層前後のcircuit-sized blockだけが効いたという。Ngはこれを、pretrainingがtransformer stackの中に離散的なfunctional circuitを刻み込んでいる可能性として解釈する。もちろんpeer-reviewed paperではなく、まだ広い合意がある結果でもない。それでも、mechanistic interpretabilityとarchitecture experimentationの両方に接続するため、研究者と実務者の両方を刺激しやすい。
なぜ実務家も気にするのか
Redditがもう一つ注目したのはcomputeの規模だ。この研究の出発点はhyperscale clusterではなく2x RTX 4090だったとされる。つまり、open model時代には個人レベルのhardwareでもarchitecture-level insightを探る余地があるということだ。ただし本当に重要なのは再現性である。特定のbenchmarkやmodel familyで見えた効果が、他のsetupでも成立するかはまだ開かれている。
- 介入の本体はweight更新ではなくlayer block duplicationである。
- 仮説が正しければ、middle layerに再利用可能なcircuitがあることになる。
- 次の焦点はmodel横断のreplicationだ。
だからこのthreadは単なる自慢話で終わらなかった。大胆な経験的主張と、他人が実際に試せるmechanismの両方を備えていたからである。
Related Articles
r/LocalLLaMAでは、Qwen3.5-9BベースのOmniCoder-9Bがfrontier agent tracesを取り込んだ小型open coding modelとして注目されている。
LocalLLaMAで再浮上した投稿は、Qwen2-72Bの中間7-layer blockをweight変更なしで繰り返し通し、benchmarkを押し上げたとするDavid Noel Ngの実験を取り上げた。
高スコアのLocalLLaMA投稿では、16GBのM1 Pro上でQwen 3.5 9Bがmemory recallと基本的なtool callingを実運用向けにこなしつつ、creative reasoningでは依然としてfrontier modelに及ばなかったと報告された。
Comments (0)
No comments yet. Be the first to comment!