r/LocalLLaMAが追ったtransformerの“danger zone”、layer duplicationが効く場所と壊れる場所

r/LocalLLaMA のこの self-post が注目されているのは、local-model community で何度も出てくる問いに正面から答えようとしているからだ。retraining なしで transformer layer を複製すると reasoning が伸びることがある、という話は以前からあったが、実際にどこで効き、どこで壊れるのかは曖昧なままだった。この投稿は72 upvotes、21 commentsを集め、実験条件もかなり具体的だ。投稿者は Apple Silicon M3 Ultra と 512GB memory、MLX を使って週末に一連の実験を回したと説明している。cloud API も training run も使わず、「なんとなく賢くなった」ではなく automated coding benchmark で比較した点を強調している。

投稿が主張するdanger zone

最も大きな主張は、model depth のおよそ 50%から56% に繰り返し現れる danger zone があるという点だ。この範囲の layer を複製したり干渉したりすると、複数の architecture で性能が落ちたり output quality が崩れたりしたという。投稿者は、この領域の layer は再利用しやすい reasoning block というより routing infrastructure に近いと解釈している。投稿の言葉を借りれば、ここは “load-bearing” だ。削除しても、二重化しても、別 model から transplant しても、残りの回路まで崩れやすいというわけだ。

最も具体的なのは Hybrid 9B の例だ。baseline は benchmark で4/10だったが、75%から84% 深度の layer を複製すると 7/10 まで上がったという。一方、56%から65% の範囲をいじると 2/10 まで落ちたと書かれている。double-stack、triple-stack、danger zone の削除といった変形も、すべて悪い方向に働いたという報告だ。要するに、「もっと考えさせれば常に良くなる」わけではない。一回の extra pass は助けになる場合があるが、閾値を超えると回路全体が崩れる可能性がある、という主張である。

なぜこの投稿が目立つのか

興味深いのは、扱っている範囲が広いことだ。Dense 32B、Hybrid 9B、MoE 30B、Dense 3B、cross-model transplant 7B をまとめて比較している。architecture ごとの傾向も違う。dense model では特定の深さが有利で、MoE では reasoning core がより浅い位置にあるように見え、概ね 3B parameters 未満の model では得られる利得が小さいとされる。最も明確な失敗は cross-model transplant で、tensor dimension が一致していても別 model の layer を差し込むと深刻な劣化や崩壊が起きたという。投稿者はこれを、internal representation が model ごとに強く特化しており、単純な入れ替えは効かない証拠と見ている。

コメント欄には重要な caution もある。上位コメントの一つは、retraining なしの architecture surgery だけで安定した改善を期待すること自体が怪しく、見えている利得も narrow benchmark の産物かもしれないと指摘している。この caveat は大事だ。これは peer-reviewed paper ではなく self-reported experiment であり、methodology も coding task 寄りだ。それでも価値があるのは、曖昧な Frankenmerge lore を testable claim に変えているからだ。optimal duplication zone があるのか、mid-depth は触らない方がいいのか、cross-model transplant は本当に期待薄なのか、といった仮説をより具体的に議論できるようにしている。

r/LocalLLaMAが追ったtransformerの“danger zone”、layer duplicationが効く場所と壊れる場所

投稿が主張するdanger zone

なぜこの投稿が目立つのか

Related Articles

Cohere未公開coding model、LocalLLaMAが先に試す30B/3B構成

Nemotron 3 Ultra、550B MoEでエージェント推論5倍と30%コスト削減を提示

Gemma 4 12B、encoder-free multimodal設計でローカルAI議論の中心へ