2枚のRTX 4090でOpen LLM Leaderboard上位に入った7-layer duplication実験

r/MachineLearningで話題になったこの投稿は、低コストな実験でもLLMの構造に関する面白い結果が出せることを示している。作者はQwen2-72Bの重みを一切変更せず、中間の7層ブロックを複製しただけで、2024年のHugging Face Open LLM Leaderboardで首位になったモデルを作れたと述べている。gradient updateもweight mergeも大規模クラスターも使っていないという点が注目を集めた。

リンク先の技術ブログが示す仮説は、transformer stackの中に機能単位のcircuitがあり、それがブロックとして保たれたときにだけ効果を発揮するというものだ。単一layerの複製ではほぼ意味がなく、多すぎるlayerを増やすと悪化する一方、特定の7-layer区間を増やすとbenchmarkが改善したという。作者はこれをLLM neuroanatomyと呼んでいる。

コメント欄では、residual streamが思ったより安定しているため、layerの削除や入れ替えにある程度耐えるという過去の観察とつながるのでは、という反応が多かった。loop構造やhalt機構に応用できるのではないか、という推測も出ている。何より、再学習なしでここまで変化するなら試す価値があるという空気が強い。

もちろん慎重さは必要だ。leaderboard上位という結果だけで一般能力の飛躍を意味するわけではなく、この仮説は別のmodel familyやtaskでも再現される必要がある。それでも重要なのは、open-weight LLM研究が依然としてcompute量だけで決まるわけではないことだ。民生GPU環境でも、構造の理解次第で面白い発見が出る余地がある。

結局この投稿が示しているのは、モデルをさらに学習させることだけが進歩ではない、という点だ。既にあるlayerが実際にどんな役割を持っているのかを理解することも同じくらい重要かもしれない。原典: 技術ブログ。コミュニティ反応: r/MachineLearning。

2枚のRTX 4090でOpen LLM Leaderboard上位に入った7-layer duplication実験

Related Articles

Redditが注目した Stanfordの公開 CS25 Transformers 講義、Spring 2026が始動

Qwen3.6-27B、397B級前世代をcoding指標で上回りApache 2.0 open weightで公開

GPT-5.5、Artificial Analysisで3点差首位に復帰　実行コストは20％上振れへ

Comments (0)

Leave a Comment

Related Articles

Redditが注目した Stanfordの公開 CS25 Transformers 講義、Spring 2026が始動
LLM Reddit Apr 3, 2026 1 min read

Qwen3.6-27B、397B級前世代をcoding指標で上回りApache 2.0 open weightで公開

GPT-5.5、Artificial Analysisで3点差首位に復帰　実行コストは20％上振れへ
重要なのは、GPT-5.5 launch直後に出た最初期のexternal benchmark readoutのひとつだという点だ。Artificial AnalysisはIntelligence Indexで3点差首位とした一方、指数実行コストは約20％高くなったと述べた。