r/LocalLLaMAが追ったtransformerの“danger zone”、layer duplicationが効く場所と壊れる場所
Original: I spent a weekend doing layer surgery on 6 different model architectures. There's a "danger zone" at 50% depth that kills every one of them. View original →
r/LocalLLaMA のこの self-post が注目されているのは、local-model community で何度も出てくる問いに正面から答えようとしているからだ。retraining なしで transformer layer を複製すると reasoning が伸びることがある、という話は以前からあったが、実際にどこで効き、どこで壊れるのかは曖昧なままだった。この投稿は72 upvotes、21 commentsを集め、実験条件もかなり具体的だ。投稿者は Apple Silicon M3 Ultra と 512GB memory、MLX を使って週末に一連の実験を回したと説明している。cloud API も training run も使わず、「なんとなく賢くなった」ではなく automated coding benchmark で比較した点を強調している。
投稿が主張するdanger zone
最も大きな主張は、model depth のおよそ 50%から56% に繰り返し現れる danger zone があるという点だ。この範囲の layer を複製したり干渉したりすると、複数の architecture で性能が落ちたり output quality が崩れたりしたという。投稿者は、この領域の layer は再利用しやすい reasoning block というより routing infrastructure に近いと解釈している。投稿の言葉を借りれば、ここは “load-bearing” だ。削除しても、二重化しても、別 model から transplant しても、残りの回路まで崩れやすいというわけだ。
最も具体的なのは Hybrid 9B の例だ。baseline は benchmark で4/10だったが、75%から84% 深度の layer を複製すると 7/10 まで上がったという。一方、56%から65% の範囲をいじると 2/10 まで落ちたと書かれている。double-stack、triple-stack、danger zone の削除といった変形も、すべて悪い方向に働いたという報告だ。要するに、「もっと考えさせれば常に良くなる」わけではない。一回の extra pass は助けになる場合があるが、閾値を超えると回路全体が崩れる可能性がある、という主張である。
なぜこの投稿が目立つのか
興味深いのは、扱っている範囲が広いことだ。Dense 32B、Hybrid 9B、MoE 30B、Dense 3B、cross-model transplant 7B をまとめて比較している。architecture ごとの傾向も違う。dense model では特定の深さが有利で、MoE では reasoning core がより浅い位置にあるように見え、概ね 3B parameters 未満の model では得られる利得が小さいとされる。最も明確な失敗は cross-model transplant で、tensor dimension が一致していても別 model の layer を差し込むと深刻な劣化や崩壊が起きたという。投稿者はこれを、internal representation が model ごとに強く特化しており、単純な入れ替えは効かない証拠と見ている。
コメント欄には重要な caution もある。上位コメントの一つは、retraining なしの architecture surgery だけで安定した改善を期待すること自体が怪しく、見えている利得も narrow benchmark の産物かもしれないと指摘している。この caveat は大事だ。これは peer-reviewed paper ではなく self-reported experiment であり、methodology も coding task 寄りだ。それでも価値があるのは、曖昧な Frankenmerge lore を testable claim に変えているからだ。optimal duplication zone があるのか、mid-depth は触らない方がいいのか、cross-model transplant は本当に期待薄なのか、といった仮説をより具体的に議論できるようにしている。
Related Articles
r/LocalLLaMAの実験投稿は、MacBook Air上のQwen 3.5 0.8Bをtest feedback loopとLoRAで回し、13個のself-generated repair pairだけでholdout sliceを16/50から28/50へ押し上げたというtinyforgeの事例を共有した。
Sebastian Raschka の LLM Architecture Gallery は、最近の open model 群を比較しやすい図にまとめ、dense、MoE、hybrid design の違いを一か所で追える点が HN で評価された。
Perceptaは2026年3月11日の投稿で、transformer 内部に computer を構築し、arbitrary C program を数百万 step 実行し、2D attention head で inference を指数的に高速化できると主張した。HNの読者は刺激的な研究方向として受け止めつつも、より明確な説明、benchmark、拡張性の根拠を求めた。
Comments (0)
No comments yet. Be the first to comment!