Lightning OPD, reasoning model post-training을 30 GPU hours로 줄였다
Original: Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation View original →
Lightning OPD가 흥미로운 이유는 reasoning model을 더 크게 만드는 이야기가 아니라, post-training 비용을 낮추는 방법을 정면으로 다루기 때문이다. standard on-policy distillation은 student model을 학습하는 동안 teacher inference server를 계속 띄워야 한다. 4월 14일 arXiv에 올라온 Yecheng Wu, Song Han, Hai Cai의 논문은 이 live teacher 의존성을 없애는 offline on-policy distillation 방식을 제안한다.
논문의 핵심 개념은 teacher consistency다. 저자들은 supervised fine-tuning과 OPD 단계에서 같은 teacher model을 써야 하며, 이를 어기면 gradient bias가 생겨 online과 offline OPD 모두 suboptimal fixed point로 수렴할 수 있다고 분석한다. Lightning OPD는 SFT rollouts 위에 teacher log-probabilities를 미리 계산해 두고, 이 조건을 지키는 방식으로 live server를 제거한다.
숫자는 연구자들이 바로 볼 만하다. SFT-initialized Qwen3-8B-Base에서 Lightning OPD는 AIME 2024 69.9%에 도달했고, 필요한 비용은 30 GPU hours였다. 저자들은 이것이 standard OPD보다 4.0x 빠르다고 보고한다. 또한 mathematical reasoning과 code generation 실험을 통해 teacher consistency를 지킨 offline OPD가 standard OPD와 같은 optimum을 공유할 수 있다고 주장한다.
이 결과가 재현된다면, 작은 연구팀과 대학 연구실에는 의미가 크다. live teacher serving을 유지하지 않고도 reasoning post-training을 돌릴 수 있다면 실험 반복 비용이 줄고, Qwen3급 open model을 활용한 specialized reasoning 연구의 진입 장벽도 낮아진다. 다음 확인 지점은 code 공개, 다른 base models, 더 긴 training budget에서의 안정성이다. 출처: arXiv:2604.13010.
다만 offline OPD가 그 자체로 만능 shortcut은 아니다. 논문의 경고가 오히려 핵심이다. teacher choice가 SFT와 OPD 전반에서 통제될 때만 precomputed probabilities가 의미를 갖는다. 그래서 Lightning OPD는 재현 가능한 pipeline에서 특히 흥미롭다. 저장된 teacher outputs 자체가 training artifact의 일부가 되기 때문이다.
Related Articles
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.
Q Labs는 100M tokens와 18B-parameter ensemble로 1B-token baseline에 맞먹는 결과를 냈다고 주장했고, Hacker News는 이 성과가 serving과 deployment에서도 유지될 수 있는지 따져 물었다.
앤트로픽이 중국 AI 기업들이 2만 4,000개 이상의 허위 계정으로 Claude에서 1,600만 건의 훈련 데이터를 무단 추출했다고 고발했습니다.