LocalLLaMAが再注目したQwen2-72Bのlayer duplication実験

LocalLLaMAが再び持ち上げた主張

高い反応を集めたLocalLLaMAの投稿は、David Noel Ngによる長文の技術記事をあらためて前面に押し出した。主張の核は単純だが奇妙だ。Qwen2-72Bの中間にある特定の7-layer blockを複製し、weightを一切変更しないまま通過回数だけを増やすと、Open LLM Leaderboard系のbenchmark成績が向上しうるというのである。gradient updateも、checkpoint mergeも、RLHFもない。手法はtraining recipeではなく、inference-timeのarchitectural rearrangementとして提示されている。

記事によれば、実験はquantized modelをExLlamaV2で動かし、2x RTX 4090 GPUで実施された。Ngは80-layer modelに対して有効な(i, j) duplication pairを総当たりで走査し、3,240個のcandidate configurationを調べたと説明する。公開leaderboardそのものを最適化対象にする代わりに、hard mathの近似解答とEQ-Benchのsocial reasoningをproxy taskに使った。報告された最良構成は(45, 52)で、layers 45から51をもう一度実行し、基礎weightを変えずにモデルを72Bから78B相当へ拡張したという。

なぜこの発想が刺さるのか

trainingではなくinference-time architecture changeで改善を狙っている。
単一layerの反復は効きにくく、circuit-sized block duplicationが重要だと論じている。
記事ではMuSR +17.72%、MATH +8.16%を含め、6つ中5つのbenchmark改善を報告している。
大規模研究所ではなくconsumer GPUでも検証可能な手順として提示されている。

面白いのはleaderboard差分そのものより解釈だ。Ngはmiddle Transformer layersを、均質に積み増せる深さではなく、まとまりを持ったfunctional circuitとして捉える。だから1 layerだけの反復では意味が薄く、境界の合ったblock全体を繰り返すと、モデルが同じ内部reasoning routineをもう一度通り、より洗練された表現を得られるというわけだ。これはmechanistic interpretabilityとも接続しやすい、検証可能な仮説になっている。

もちろん証拠の位置づけは冷静に見る必要がある。これはpeer-reviewed paperではなく、“functional circuit”という整理も著者の仮説だ。それでもこの投稿が注目されたのは、思いつきレベルの話を、明示的なconfiguration、測定可能なdelta、そして大規模training labよりはるかに小さいhardware budgetで再試験可能な手順へ落とし込んだからだ。LocalLLaMAが素早く反応した理由もそこにある。

Source: David Noel Ng's technical write-up. Community discussion: r/LocalLLaMA thread.

LocalLLaMAが再注目したQwen2-72Bのlayer duplication実験

LocalLLaMAが再び持ち上げた主張

なぜこの発想が刺さるのか

Related Articles

Cohere W4A8、vLLM Hopperでfirst-token latency 58%短縮を主張

Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した

Hacker Newsが再確認したlong-context LLMのKV cacheコスト

Comments (0)

Leave a Comment

Related Articles

Cohere W4A8、vLLM Hopperでfirst-token latency 58%短縮を主張
重要なのは、inference costがinfrastructure問題だけでなくproduct constraintになっている点だ。CohereはvLLMのW4A8 pathがHopper上でW4A16比TTFT最大58%、TPOT最大45%高速だと述べた。

Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した
27BモデルがSonnet 4.6に並んだという話でLocalLLaMAは沸いたが、議論はすぐベンチ最適化と実運用条件の確認に移った。

Hacker Newsが再確認したlong-context LLMのKV cacheコスト
LLM Hacker News Apr 2, 2026 1 min read