Lightning OPD、reasoning model post-trainingを30 GPU hoursに縮めた
Original: Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation View original →
Lightning OPDが目を引くのは、reasoning modelを大きくする話ではなく、post-trainingの実験コストそのものを下げようとしている点だ。standard on-policy distillationでは、student modelの学習中にteacher inference serverを動かし続ける必要がある。4月14日にarXivへ出たYecheng Wu、Song Han、Hai Caiのpaperは、このlive teacher依存を外すoffline on-policy distillationを提案している。
中心になる概念はteacher consistencyだ。著者らは、supervised fine-tuningとOPDで同じteacher modelを使う必要があり、ここが崩れるとgradient biasが生まれ、online OPDもoffline OPDもsuboptimal fixed pointへ向かう可能性があると分析する。Lightning OPDはSFT rollouts上でteacher log-probabilitiesを事前計算し、この条件を保ったままlive serverを不要にする。
注目される数字はかなり具体的だ。SFT-initialized Qwen3-8B-Baseから、Lightning OPDはAIME 2024で69.9%に到達し、必要だった計算は30 GPU hoursだった。paperはstandard OPDに対して4.0x speedupを報告し、mathematical reasoningとcode generationの実験で効率改善を示す。teacher consistencyの下ではstandard OPDと同じoptimumを共有できる、という主張も含まれる。
外部で再現されれば、小規模な研究室にとって意味は大きい。毎回teacher modelをserveし続けなくてもreasoning post-trainingを回せるなら、specialized domainsでのopen model実験が軽くなる。次に確認したいのはcode公開、Qwen3-8B-Base以外のbase models、より長いtraining budgetでの安定性だ。出典: arXiv:2604.13010.
ただしoffline OPDは、それだけで万能のshortcutになるわけではない。paperの警告こそ重要だ。precomputed probabilitiesが意味を持つのは、teacher choiceがSFTとOPD全体で制御されている場合に限られる。だからLightning OPDは、再現可能なpipelineで特に面白い。保存されたteacher outputs自体がtraining artifactの一部になるからだ。
Related Articles
synthetic dataで別モデルを訓練する流れに、見えにくい安全リスクが加わった。Nature論文は、owl preferenceやmisalignmentのようなtraitが意味上は無関係な数列からstudent modelへ移る場合を示した。
CloudflareはAI Gatewayをagent向けの統合inference layerへ寄せ、Workers AIから70+ models、12+ providersを同じAPIで呼べるようにした。重要なのはcatalogだけではなく、10回前後のinferenceをつなぐagent workflowでcost、retry、failoverを一箇所に寄せる点だ。
このReddit threadは TGI を惜しむ空気ではない。active momentum が離れた後に operator 同士が答え合わせをしている感じで、general inference serving の default はもう vLLM だという見方がかなり強い。
Comments (0)
No comments yet. Be the first to comment!