HNで議論された llm-circuit-finder: layer duplication は free upgrade ではなく capability steering
Original: Show HN: Duplicate 3 layers in a 24B LLM, logical deduction .22→.76. No training View original →
何が出てきたのか
llm-circuit-finder は、transformer 内部の reasoning circuits を探し、selected layers に hidden states をもう一度通すことで能力を変える toolkit だ。中心にある主張は明快で、training も weight changes も行わず、layer duplication と routing だけで特定の capability を押し上げられるというものだ。Show HN の投稿では、作者が David Ng の RYS method を RX 7900 XT + RX 6950 XT で追試し、Devstral-24B と Qwen2.5-Coder-32B で大きな差分が出たと説明している。
- Devstral-24B で layers 12-14 duplicated once: BBH Logical Deduction 0.22 to 0.76, GSM8K strict 0.48 to 0.64, MBPP 0.72 to 0.78.
- Qwen2.5-Coder-32B で layers 7-9 duplicated once: reasoning probe 76% to 94%.
- README には
sweep.py,layer_path.py,gguf_surgery.py,compare_eval.py,visualize.pyがあり、sweep、GGUF surgery、evaluation comparison、visualization を一通り再現できる。
source material だけを見ると、注目点ははっきりしている。ある contiguous block を正確に選ぶと reasoning circuit をもう一度走らせる効果が出て、1 layer ずらすだけで効果が消えたり反転したりする、という主張だ。README は、different duplication patterns が異なる cognitive modes を生むとも説明している。つまり、同じ weights でも route の設計次第で capability profile が変わるという見方だ。
慎重に見るべき点
ただし、README の全体像は HN の headline よりかなり慎重だ。この project が示しているのは universal improvement ではなく capability steering に近い。reasoning-heavy な task では良くなっても、instruction following や code task では逆方向に動く可能性がある。したがって、投稿のインパクトだけで LLM 全体が良くなったと読むのは危ない。
その点を最もよく示すのが Devstral surgery の full benchmark table だ。HN 投稿は強い reasoning 指標を前面に出しているが、README の broader comparison では IFEval/MBPP が下がり、listed metrics 全体の average も 0.7610 to 0.7488 に落ちる。つまり 0.22 to 0.76 のような headline metric は事実でも、それだけで free win と結論づけることはできない。用途が複数ある production workload では、この差はかなり重要だ。
運用コストにも注意が必要だ。README は same weights、no training、different routing という概念を強調する一方で、現在の実装は duplicated layers を GGUF に physical copies として書き込む。結果として、24B model に 3 extra layers を足すと about 1.5 GiB extra VRAM が必要になり、inference は about 7.5% slower になる。weight updates が不要でも、memory と latency の支払いは残る。
なぜ HN thread が重要だったのか
この story が community-sourced article として面白かった理由は、GitHub repo だけで完結せず、HN discussion がその場で claim を検証したことにある。thread は 257 points, 82 comments を集め、commenters は prior art、novelty、benchmark coverage、practical cost をかなり具体的に問い直した。layer replay や duplication 自体は完全に新しい発想ではない、という指摘もあり、作者は新規性があるとすれば model ごとの exact 3-layer boundary を systematic に探す toolkit と、standard benchmarks による validation だと答えている。
このやり取りが実務上の価値を作っている。もし本当の結論が all models get better ではなく、certain routes steer certain behaviors だとすれば、次に必要なのは評価の厳密さだ。同じ効果が seeds、prompts、quantization、runtime、downstream fine-tuning をまたいで残るのか。平均性能を落としてでも欲しい capability なのか。HN thread はまさにその問いを可視化した。
現時点での読み方としては、llm-circuit-finder は duplicated layers が LLM を universally upgrade する証拠というより、layer routing によって能力の出方を調整できるかもしれないことを示す興味深い model-surgery 実験だ。再現しやすい scripts と具体的な benchmark delta を公開している点は強いが、evidence が支持しているのは tradeoffs を伴う capability steering であって、全面的な改善ではない。
原典は https://github.com/alainnothere/llm-circuit-finder、HN discussion は https://news.ycombinator.com/item?id=47431671 を参照。
Related Articles
2026年3月20日のr/LocalLLaMAではNVIDIA Nemotron-Cascade-2-30B-A3Bが話題となり、30B total parametersのうち3B activatedという構成とthinking/instruct dual modeの組み合わせが注目点になった。
Google DeepMindは2026年3月3日、Gemini 3.1 Flash-Liteを高頻度・低遅延ワークロード向けmodelとして提示した。会社は128k input、8k output、multimodal input、native audio generation、そして$0.10/$0.40水準のtoken pricingを強調している。
SkyPilotはClaude Codeが8時間で約910件の autoresearch 実験を回したと説明し、Hacker Newsでは本当の進歩が agent の戦略なのか、インフラなのか、その両方なのかが議論になった。
Comments (0)
No comments yet. Be the first to comment!