Lightning OPD、reasoning model post-trainingを30 GPU hoursに縮めた

Lightning OPDが目を引くのは、reasoning modelを大きくする話ではなく、post-trainingの実験コストそのものを下げようとしている点だ。standard on-policy distillationでは、student modelの学習中にteacher inference serverを動かし続ける必要がある。4月14日にarXivへ出たYecheng Wu、Song Han、Hai Caiのpaperは、このlive teacher依存を外すoffline on-policy distillationを提案している。

中心になる概念はteacher consistencyだ。著者らは、supervised fine-tuningとOPDで同じteacher modelを使う必要があり、ここが崩れるとgradient biasが生まれ、online OPDもoffline OPDもsuboptimal fixed pointへ向かう可能性があると分析する。Lightning OPDはSFT rollouts上でteacher log-probabilitiesを事前計算し、この条件を保ったままlive serverを不要にする。

注目される数字はかなり具体的だ。SFT-initialized Qwen3-8B-Baseから、Lightning OPDはAIME 2024で69.9%に到達し、必要だった計算は30 GPU hoursだった。paperはstandard OPDに対して4.0x speedupを報告し、mathematical reasoningとcode generationの実験で効率改善を示す。teacher consistencyの下ではstandard OPDと同じoptimumを共有できる、という主張も含まれる。

外部で再現されれば、小規模な研究室にとって意味は大きい。毎回teacher modelをserveし続けなくてもreasoning post-trainingを回せるなら、specialized domainsでのopen model実験が軽くなる。次に確認したいのはcode公開、Qwen3-8B-Base以外のbase models、より長いtraining budgetでの安定性だ。出典: arXiv:2604.13010.

ただしoffline OPDは、それだけで万能のshortcutになるわけではない。paperの警告こそ重要だ。precomputed probabilitiesが意味を持つのは、teacher choiceがSFTとOPD全体で制御されている場合に限られる。だからLightning OPDは、再現可能なpipelineで特に面白い。保存されたteacher outputs自体がtraining artifactの一部になるからだ。

Lightning OPD、reasoning model post-trainingを30 GPU hoursに縮めた

Related Articles

Claude Fable 5、Mythos級AIを慎重なフォールバック付きで一般公開

Nature論文、LLMのtraitとmisalignmentが無関係な数列からも伝わると示した

Hacker Newsが見るNanoGPT Slowrunの10xデータ効率主張

Related Articles

Claude Fable 5、Mythos級AIを慎重なフォールバック付きで一般公開
Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。

Nature論文、LLMのtraitとmisalignmentが無関係な数列からも伝わると示した
LLM X/Twitter Apr 16, 2026 1 min read

Hacker Newsが見るNanoGPT Slowrunの10xデータ効率主張
LLM Hacker News Mar 20, 2026 1 min read