Lightning OPD, reasoning model post-training을 30 GPU hours로 줄였다

Lightning OPD가 흥미로운 이유는 reasoning model을 더 크게 만드는 이야기가 아니라, post-training 비용을 낮추는 방법을 정면으로 다루기 때문이다. standard on-policy distillation은 student model을 학습하는 동안 teacher inference server를 계속 띄워야 한다. 4월 14일 arXiv에 올라온 Yecheng Wu, Song Han, Hai Cai의 논문은 이 live teacher 의존성을 없애는 offline on-policy distillation 방식을 제안한다.

논문의 핵심 개념은 teacher consistency다. 저자들은 supervised fine-tuning과 OPD 단계에서 같은 teacher model을 써야 하며, 이를 어기면 gradient bias가 생겨 online과 offline OPD 모두 suboptimal fixed point로 수렴할 수 있다고 분석한다. Lightning OPD는 SFT rollouts 위에 teacher log-probabilities를 미리 계산해 두고, 이 조건을 지키는 방식으로 live server를 제거한다.

숫자는 연구자들이 바로 볼 만하다. SFT-initialized Qwen3-8B-Base에서 Lightning OPD는 AIME 2024 69.9%에 도달했고, 필요한 비용은 30 GPU hours였다. 저자들은 이것이 standard OPD보다 4.0x 빠르다고 보고한다. 또한 mathematical reasoning과 code generation 실험을 통해 teacher consistency를 지킨 offline OPD가 standard OPD와 같은 optimum을 공유할 수 있다고 주장한다.

이 결과가 재현된다면, 작은 연구팀과 대학 연구실에는 의미가 크다. live teacher serving을 유지하지 않고도 reasoning post-training을 돌릴 수 있다면 실험 반복 비용이 줄고, Qwen3급 open model을 활용한 specialized reasoning 연구의 진입 장벽도 낮아진다. 다음 확인 지점은 code 공개, 다른 base models, 더 긴 training budget에서의 안정성이다. 출처: arXiv:2604.13010.

다만 offline OPD가 그 자체로 만능 shortcut은 아니다. 논문의 경고가 오히려 핵심이다. teacher choice가 SFT와 OPD 전반에서 통제될 때만 precomputed probabilities가 의미를 갖는다. 그래서 Lightning OPD는 재현 가능한 pipeline에서 특히 흥미롭다. 저장된 teacher outputs 자체가 training artifact의 일부가 되기 때문이다.

Lightning OPD, reasoning model post-training을 30 GPU hours로 줄였다

Related Articles

Nature 논문, LLM trait와 misalignment가 무관한 숫자 데이터로도 전이됨을 보였다

Gas Town 크레딧 논란, HN은 결국 AI agent 신뢰 문제로 읽었다

Cloudflare, 70+ models를 하나의 AI Gateway API로 묶었다

Comments (0)

Leave a Comment

Related Articles

Nature 논문, LLM trait와 misalignment가 무관한 숫자 데이터로도 전이됨을 보였다
LLM sources.twitter Apr 16, 2026 1 min read

Gas Town 크레딧 논란, HN은 결국 AI agent 신뢰 문제로 읽었다
LLM Hacker News Apr 16, 2026 1 min read

Cloudflare, 70+ models를 하나의 AI Gateway API로 묶었다