#post-training

LLM Jun 30, 2026 1 min read

Arena、1,000万件のモデル投票を年換算$100M事業へ

AIモデル比較で知られるArenaが、商用評価サービスの開始から8カ月で年換算$100Mの売上規模に到達した。1,000万件超のユーザー評価が、モデル研究所と企業向けの有料インフラになりつつある。

LLM X/Twitter Apr 23, 2026 1 min read

Perplexity、Qwen SFT+RLでGPT factualityの検索費用曲線を上回る主張

重要なのは、search AIでは流暢な回答だけでなくfactualityとcitation qualityが評価軸になることだ。PerplexityはSFT + RL pipelineにより、Qwen modelsがより低いcostでGPT modelsのfactualityに並ぶ、または上回ると述べた。

#perplexity #qwen #retrieval

LLM Apr 16, 2026 1 min read

Lightning OPD、reasoning model post-trainingを30 GPU hoursに縮めた

Lightning OPDは、reasoning model post-trainingでlive teacher inference serverを動かし続けるコストに切り込む。4月14日のarXiv paperは、Qwen3-8B-BaseからAIME 2024 69.9%へ30 GPU hoursで到達し、standard OPD比4.0x speedupだったと報告している。

#llm #distillation #post-training