HNで注目: シンプルな self-distillation だけで code generation を伸ばす研究

2026年4月4日、Hacker News のスレッドが540ポイントと164件のコメントを集め、Apple研究者による arXiv 論文を強く可視化した。論文の問いははっきりしている。verifier も teacher model も reinforcement learning も使わずに、LLM が自分自身の出力だけで code generation を改善できるのか、という点だ。

提案手法は simple self-distillation、略して SSD である。モデルは特定の temperature と truncation 設定で候補解を自分でサンプリングし、その自己生成サンプルを通常の supervised fine-tuning に戻す。論文では Qwen3-30B-Instruct の LiveCodeBench v6 における pass@1 が 42.4% から 55.3% へ上昇したと報告されている。改善は難しい問題ほど大きく、Qwen と Llama の 4B、8B、30B、さらに instruct variant と thinking variant の両方に広がるという。

著者らの説明は decoding における precision と exploration の衝突にある。コードには、文法や意味の都合で極めて鋭い token 選択が必要な位置もあれば、複数の解法が成り立つ branch point もある。SSD は文脈に応じて token 分布を作り直し、precision が必要な場所では distractor tail を抑えつつ、exploration が有効な場所では必要な多様性を残すという考え方だ。

この結果が HN で刺さったのは、巨大な新 training stack ではなく、比較的軽い post-training の工夫として見えるからだ。もし再現性があるなら、frontier 級の計算資源を持たないチームでも試しやすい。もちろん、自己生成データのコスト、実際の coding agent への転移、benchmark 依存性といった論点は残る。それでも、小さく単純な処方で大きな改善が出る可能性は十分に追う価値がある。

中心となる recipe には verifier model、teacher model、RL loop が入っていない。
代表的な結果は Qwen3-30B-Instruct の LiveCodeBench v6 pass@1 を 42.4% から 55.3% に引き上げたこと。
論文は、precision が必要な token 位置と exploration が有効な位置を切り分けることが改善の核心だと説明する。

HNで注目: シンプルな self-distillation だけで code generation を伸ばす研究

Related Articles

8ドルのESP32で28.9M LLM、鍵はflashに置く重み

Open-weight AIのKubernetes的瞬間、問われるのはモデルより周辺スタック

GitHub CopilotにClaude Opus 5、長時間coding agentの選択肢が拡大

Related Articles

8ドルのESP32で28.9M LLM、鍵はflashに置く重み

Open-weight AIのKubernetes的瞬間、問われるのはモデルより周辺スタック

GitHub CopilotにClaude Opus 5、長時間coding agentの選択肢が拡大