HNで議論された llm-circuit-finder: layer duplication は free upgrade ではなく capability steering

何が出てきたのか

llm-circuit-finder は、transformer 内部の reasoning circuits を探し、selected layers に hidden states をもう一度通すことで能力を変える toolkit だ。中心にある主張は明快で、training も weight changes も行わず、layer duplication と routing だけで特定の capability を押し上げられるというものだ。Show HN の投稿では、作者が David Ng の RYS method を RX 7900 XT + RX 6950 XT で追試し、Devstral-24B と Qwen2.5-Coder-32B で大きな差分が出たと説明している。

Devstral-24B で layers 12-14 duplicated once: BBH Logical Deduction 0.22 to 0.76, GSM8K strict 0.48 to 0.64, MBPP 0.72 to 0.78.
Qwen2.5-Coder-32B で layers 7-9 duplicated once: reasoning probe 76% to 94%.
README には sweep.py, layer_path.py, gguf_surgery.py, compare_eval.py, visualize.py があり、sweep、GGUF surgery、evaluation comparison、visualization を一通り再現できる。

source material だけを見ると、注目点ははっきりしている。ある contiguous block を正確に選ぶと reasoning circuit をもう一度走らせる効果が出て、1 layer ずらすだけで効果が消えたり反転したりする、という主張だ。README は、different duplication patterns が異なる cognitive modes を生むとも説明している。つまり、同じ weights でも route の設計次第で capability profile が変わるという見方だ。

慎重に見るべき点

ただし、README の全体像は HN の headline よりかなり慎重だ。この project が示しているのは universal improvement ではなく capability steering に近い。reasoning-heavy な task では良くなっても、instruction following や code task では逆方向に動く可能性がある。したがって、投稿のインパクトだけで LLM 全体が良くなったと読むのは危ない。

その点を最もよく示すのが Devstral surgery の full benchmark table だ。HN 投稿は強い reasoning 指標を前面に出しているが、README の broader comparison では IFEval/MBPP が下がり、listed metrics 全体の average も 0.7610 to 0.7488 に落ちる。つまり 0.22 to 0.76 のような headline metric は事実でも、それだけで free win と結論づけることはできない。用途が複数ある production workload では、この差はかなり重要だ。

運用コストにも注意が必要だ。README は same weights、no training、different routing という概念を強調する一方で、現在の実装は duplicated layers を GGUF に physical copies として書き込む。結果として、24B model に 3 extra layers を足すと about 1.5 GiB extra VRAM が必要になり、inference は about 7.5% slower になる。weight updates が不要でも、memory と latency の支払いは残る。

なぜ HN thread が重要だったのか

この story が community-sourced article として面白かった理由は、GitHub repo だけで完結せず、HN discussion がその場で claim を検証したことにある。thread は 257 points, 82 comments を集め、commenters は prior art、novelty、benchmark coverage、practical cost をかなり具体的に問い直した。layer replay や duplication 自体は完全に新しい発想ではない、という指摘もあり、作者は新規性があるとすれば model ごとの exact 3-layer boundary を systematic に探す toolkit と、standard benchmarks による validation だと答えている。

このやり取りが実務上の価値を作っている。もし本当の結論が all models get better ではなく、certain routes steer certain behaviors だとすれば、次に必要なのは評価の厳密さだ。同じ効果が seeds、prompts、quantization、runtime、downstream fine-tuning をまたいで残るのか。平均性能を落としてでも欲しい capability なのか。HN thread はまさにその問いを可視化した。

現時点での読み方としては、llm-circuit-finder は duplicated layers が LLM を universally upgrade する証拠というより、layer routing によって能力の出方を調整できるかもしれないことを示す興味深い model-surgery 実験だ。再現しやすい scripts と具体的な benchmark delta を公開している点は強いが、evidence が支持しているのは tradeoffs を伴う capability steering であって、全面的な改善ではない。

原典は https://github.com/alainnothere/llm-circuit-finder、HN discussion は https://news.ycombinator.com/item?id=47431671 を参照。

HNで議論された llm-circuit-finder: layer duplication は free upgrade ではなく capability steering

何が出てきたのか

慎重に見るべき点

なぜ HN thread が重要だったのか

Related Articles

Claude Fable 5、Mythos級AIを慎重なフォールバック付きで一般公開

Mistral、reasoning・coding・multimodalを統合したオープンソースモデルMistral Small 4を発表

「カーウォッシュ」テスト：53のLLMモデル中、11だけが簡単な論理問題に合格

Related Articles

Claude Fable 5、Mythos級AIを慎重なフォールバック付きで一般公開
Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。

Mistral、reasoning・coding・multimodalを統合したオープンソースモデルMistral Small 4を発表
LLM Mar 29, 2026 1 min read

「カーウォッシュ」テスト：53のLLMモデル中、11だけが簡単な論理問題に合格
LLM Hacker News Feb 24, 2026 1 min read