Lightning OPD、reasoning model post-trainingを30 GPU hoursに縮めた
Original: Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation View original →
Lightning OPDが目を引くのは、reasoning modelを大きくする話ではなく、post-trainingの実験コストそのものを下げようとしている点だ。standard on-policy distillationでは、student modelの学習中にteacher inference serverを動かし続ける必要がある。4月14日にarXivへ出たYecheng Wu、Song Han、Hai Caiのpaperは、このlive teacher依存を外すoffline on-policy distillationを提案している。
中心になる概念はteacher consistencyだ。著者らは、supervised fine-tuningとOPDで同じteacher modelを使う必要があり、ここが崩れるとgradient biasが生まれ、online OPDもoffline OPDもsuboptimal fixed pointへ向かう可能性があると分析する。Lightning OPDはSFT rollouts上でteacher log-probabilitiesを事前計算し、この条件を保ったままlive serverを不要にする。
注目される数字はかなり具体的だ。SFT-initialized Qwen3-8B-Baseから、Lightning OPDはAIME 2024で69.9%に到達し、必要だった計算は30 GPU hoursだった。paperはstandard OPDに対して4.0x speedupを報告し、mathematical reasoningとcode generationの実験で効率改善を示す。teacher consistencyの下ではstandard OPDと同じoptimumを共有できる、という主張も含まれる。
外部で再現されれば、小規模な研究室にとって意味は大きい。毎回teacher modelをserveし続けなくてもreasoning post-trainingを回せるなら、specialized domainsでのopen model実験が軽くなる。次に確認したいのはcode公開、Qwen3-8B-Base以外のbase models、より長いtraining budgetでの安定性だ。出典: arXiv:2604.13010.
ただしoffline OPDは、それだけで万能のshortcutになるわけではない。paperの警告こそ重要だ。precomputed probabilitiesが意味を持つのは、teacher choiceがSFTとOPD全体で制御されている場合に限られる。だからLightning OPDは、再現可能なpipelineで特に面白い。保存されたteacher outputs自体がtraining artifactの一部になるからだ。
Related Articles
Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。
synthetic dataで別モデルを訓練する流れに、見えにくい安全リスクが加わった。Nature論文は、owl preferenceやmisalignmentのようなtraitが意味上は無関係な数列からstudent modelへ移る場合を示した。
Q Labsは100M tokensと18B-parameter ensembleで1B-token baselineに匹敵すると主張し、Hacker Newsではその利得が serving と deployment まで成立するのかがすぐに論点になった。