HNで注目: シンプルな self-distillation だけで code generation を伸ばす研究
Original: Embarrassingly simple self-distillation improves code generation View original →
2026年4月4日、Hacker News のスレッドが540ポイントと164件のコメントを集め、Apple研究者による arXiv 論文を強く可視化した。論文の問いははっきりしている。verifier も teacher model も reinforcement learning も使わずに、LLM が自分自身の出力だけで code generation を改善できるのか、という点だ。
提案手法は simple self-distillation、略して SSD である。モデルは特定の temperature と truncation 設定で候補解を自分でサンプリングし、その自己生成サンプルを通常の supervised fine-tuning に戻す。論文では Qwen3-30B-Instruct の LiveCodeBench v6 における pass@1 が 42.4% から 55.3% へ上昇したと報告されている。改善は難しい問題ほど大きく、Qwen と Llama の 4B、8B、30B、さらに instruct variant と thinking variant の両方に広がるという。
著者らの説明は decoding における precision と exploration の衝突にある。コードには、文法や意味の都合で極めて鋭い token 選択が必要な位置もあれば、複数の解法が成り立つ branch point もある。SSD は文脈に応じて token 分布を作り直し、precision が必要な場所では distractor tail を抑えつつ、exploration が有効な場所では必要な多様性を残すという考え方だ。
この結果が HN で刺さったのは、巨大な新 training stack ではなく、比較的軽い post-training の工夫として見えるからだ。もし再現性があるなら、frontier 級の計算資源を持たないチームでも試しやすい。もちろん、自己生成データのコスト、実際の coding agent への転移、benchmark 依存性といった論点は残る。それでも、小さく単純な処方で大きな改善が出る可能性は十分に追う価値がある。
- 中心となる recipe には verifier model、teacher model、RL loop が入っていない。
- 代表的な結果は Qwen3-30B-Instruct の LiveCodeBench v6 pass@1 を 42.4% から 55.3% に引き上げたこと。
- 論文は、precision が必要な token 位置と exploration が有効な位置を切り分けることが改善の核心だと説明する。
Related Articles
Hacker Newsで注目された新しい論文は、verifierやteacher model、reinforcement learningなしでも、model自身の出力からcode generation性能を伸ばせると主張している。論文ではQwen3-30B-InstructがLiveCodeBench v6 pass@1で42.4%から55.3%へ上がったと報告した。
Stanfordの公開 CS25講義は、Zoom、recordings、Discordを通じて campus外まで広がる Transformer研究の学習チャネルとして再び機能している。
r/LocalLLaMAの投稿は142 pointsと29 commentsを集め、CoPaw-9Bへの初期関心を示した。議論の中心は、Qwen3.5系の9B Agentモデル、262,144 tokensのcontext、そしてGGUFやquantized releaseが早く出るかどうかだった。
Comments (0)
No comments yet. Be the first to comment!