Hacker Newsで議論、layer を複製して reasoning を高める no-training LLM experiment
Original: Show HN: Duplicate 3 layers in a 24B LLM, logical deduction .22→.76. No training View original →
Hacker News thread で 262 points と 81 comments を集めたこの story は、training なしで LLM の一部 layer を複製し reasoning を高めるという実験を扱っている。リンク先の llm-circuit-finder は David Ng の RYS method を土台にし、contiguous な transformer layers が reasoning circuit のように機能すると考える。weight を変える代わりに execution path を変更し、hidden states を同じ block にもう一度通すのがポイントだ。
repo が最も強く打ち出す結果は Devstral-Small-2-24B に関するものだ。author は layers 12-14 を duplicate すると BBH logical deduction が 0.22 から 0.76 に上がると主張している。同じ説明では causal judgement と GSM8K も改善した一方、instruction following と MBPP は下がったとされる。つまり、すべてが良くなるというより、reasoning 寄りの能力を押し上げる代わりに別の能力を落とす可能性があるという話だ。
Qwen2.5-Coder-32B に関する結果も示されている。こちらでは layers 7-9 duplication により custom reasoning suite が 76.5% から 94.1% に、EQ が 92.1 から 93.6 に上がったと書かれている。さらに sweep.py、layer_path.py、compare_eval.py などのツールが含まれており、candidate block の探索、modified GGUF の生成、benchmark 比較を再現できるようにしている。ただし、中心となる benchmark 数値はあくまで repo author が提示した自己報告だ。
コストも明記されている。duplicated layers は physical copies として GGUF に入るため、追加の memory が必要になる。repo FAQ では 24B model に 3 extra layers を加えると約 1.5 GiB の VRAM 増加があり、40-layer model で 3 extra layers なら inference が約 7.5% 遅くなる可能性があるとしている。つまり、これは free lunch ではなく、memory と latency を reasoning gain と交換する方法だ。
それでも注目される理由は、fine-tuning や weight merge ではなく execution-path surgery に焦点を当てているからだ。author は transformer の一部 block が indivisible な cognitive unit のように機能し、適切な block を繰り返すことで behavior が変わると解釈している。もしこの考え方が他の architecture でも再現されるなら、quantization や fine-tuning とは別の optimization 軸として面白い。
ただし現時点では、確立した breakthrough として読むより experimental result として扱うのが妥当だ。logical deduction 0.22→0.76 のような数字は非常に強いが、まだ広い independent validation が付いたわけではない。だからこそ、この story は HN らしい high-risk, high-interest な open source research experiment と言える。興味がある読者は HN discussion と repo を見ながら、claim と reproduction の両方を確認したい。
Related Articles
2026年3月18日にLocalLLaMAで注目を集めたMamba-3は、Carnegie Mellon University、Princeton、Cartesia AI、Together AIの研究者が公開したstate space modelだ。設計目標をtraining speedからinference efficiencyへ移し、1.5B scaleでMamba-2やGated DeltaNet、Llama-3.2-1Bを上回るprefill+decode latencyを主張している。
Hacker Newsで注目を集めたのは、Sarvam AIがIndiaAI missionのcomputeでインド国内学習した reasoning重視のMoEモデル Sarvam 30Bと105B を公開した点だ。単なるweights公開ではなく、製品投入、inference最適化、Indian-language benchmarkまで含めた発表になっている。
Show HNで注目された llm-circuit-finder は、training や weight changes なしで layer routing だけで reasoning を押し上げられると主張する。ただし README の全体 benchmark は IFEval/MBPP と平均値の悪化も示しており、これは universal improvement というより capability steering と見る方が妥当だ。
Comments (0)
No comments yet. Be the first to comment!