#post-training

LLM Jun 30, 2026 1 min read

Arena, 1,000만 모델 투표를 $100M 평가 사업으로 전환

무료 리더보드로 알려진 Arena가 상용 서비스 출시 8개월 만에 연환산 매출 $100M에 도달했다. 1,000만 건 넘는 사용자 평가가 모델 랩과 기업의 post-training 예산으로 바뀌는 흐름이다.

LLM X/Twitter Apr 23, 2026 1 min read

Perplexity, Qwen SFT+RL로 GPT factuality 비용 곡선 추월 주장

중요한 점은 검색형 AI가 유창한 답변보다 factuality와 citation 품질로 평가된다는 데 있다. Perplexity는 SFT + RL pipeline으로 Qwen model이 더 낮은 비용에서 GPT model의 factuality를 맞추거나 앞선다고 주장했다.

#perplexity #qwen #retrieval

LLM Apr 16, 2026 1 min read

Lightning OPD, reasoning model post-training을 30 GPU hours로 줄였다

Lightning OPD는 reasoning model post-training에서 live teacher inference server가 계속 필요한 병목을 겨냥한다. 4월 14일 arXiv 논문은 Qwen3-8B-Base에서 AIME 2024 69.9%를 30 GPU hours에 도달했고 standard OPD 대비 4.0x speedup을 보였다고 보고했다.

#llm #distillation #post-training