LocalLLaMAが再注目したQwen2-72Bのlayer duplication実験

Original: How I topped the Open LLM Leaderboard using 2x 4090 GPUs — no weights modified. View original →

Read in other languages: 한국어English
LLM Mar 11, 2026 By Insights AI (Reddit) 1 min read Source

LocalLLaMAが再び持ち上げた主張

高い反応を集めたLocalLLaMAの投稿は、David Noel Ngによる長文の技術記事をあらためて前面に押し出した。主張の核は単純だが奇妙だ。Qwen2-72Bの中間にある特定の7-layer blockを複製し、weightを一切変更しないまま通過回数だけを増やすと、Open LLM Leaderboard系のbenchmark成績が向上しうるというのである。gradient updateも、checkpoint mergeも、RLHFもない。手法はtraining recipeではなく、inference-timeのarchitectural rearrangementとして提示されている。

記事によれば、実験はquantized modelをExLlamaV2で動かし、2x RTX 4090 GPUで実施された。Ngは80-layer modelに対して有効な(i, j) duplication pairを総当たりで走査し、3,240個のcandidate configurationを調べたと説明する。公開leaderboardそのものを最適化対象にする代わりに、hard mathの近似解答とEQ-Benchのsocial reasoningをproxy taskに使った。報告された最良構成は(45, 52)で、layers 45から51をもう一度実行し、基礎weightを変えずにモデルを72Bから78B相当へ拡張したという。

なぜこの発想が刺さるのか

  • trainingではなくinference-time architecture changeで改善を狙っている。
  • 単一layerの反復は効きにくく、circuit-sized block duplicationが重要だと論じている。
  • 記事ではMuSR +17.72%、MATH +8.16%を含め、6つ中5つのbenchmark改善を報告している。
  • 大規模研究所ではなくconsumer GPUでも検証可能な手順として提示されている。

面白いのはleaderboard差分そのものより解釈だ。Ngはmiddle Transformer layersを、均質に積み増せる深さではなく、まとまりを持ったfunctional circuitとして捉える。だから1 layerだけの反復では意味が薄く、境界の合ったblock全体を繰り返すと、モデルが同じ内部reasoning routineをもう一度通り、より洗練された表現を得られるというわけだ。これはmechanistic interpretabilityとも接続しやすい、検証可能な仮説になっている。

もちろん証拠の位置づけは冷静に見る必要がある。これはpeer-reviewed paperではなく、“functional circuit”という整理も著者の仮説だ。それでもこの投稿が注目されたのは、思いつきレベルの話を、明示的なconfiguration、測定可能なdelta、そして大規模training labよりはるかに小さいhardware budgetで再試験可能な手順へ落とし込んだからだ。LocalLLaMAが素早く反応した理由もそこにある。

Source: David Noel Ng's technical write-up. Community discussion: r/LocalLLaMA thread.

Share:

Related Articles

LLM Reddit 1d ago 1 min read

新しいllama.cpp変更は<code>--reasoning-budget</code>をtemplate stubではなくsampler側の実制御へ変える。LocalLLaMA threadでは、長いthink loopを削ることとanswer qualityを守ることのtradeoff、とくにlocal Qwen 3.5環境での意味が集中的に議論された。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.