HN 화제: 단순한 self-distillation만으로 코드 생성 성능을 끌어올린 연구
Original: Embarrassingly simple self-distillation improves code generation View original →
2026년 4월 4일, Hacker News 스레드 하나가 540점과 164개 댓글을 모으며 Apple 연구진의 arXiv 논문을 크게 확산시켰다. 논문이 던지는 질문은 명확하다. verifier, teacher model, reinforcement learning 없이도 LLM이 자기 출력만으로 코드 생성 성능을 높일 수 있는가 하는 점이다.
저자들이 제시한 답은 simple self-distillation, 즉 SSD다. 모델이 특정 temperature와 truncation 설정으로 스스로 여러 해답을 샘플링하고, 그 샘플을 다시 일반적인 supervised fine-tuning 데이터처럼 사용한다. 논문에 따르면 Qwen3-30B-Instruct의 LiveCodeBench v6 pass@1은 42.4%에서 55.3%로 올라갔고, 향상 폭은 더 어려운 문제에서 특히 크게 나타났다. 또한 Qwen과 Llama 계열의 4B, 8B, 30B 모델, instruct 모델과 thinking 모델 모두에서 유사한 경향이 관찰됐다고 설명한다.
핵심 해석은 decoding 내부의 precision-exploration conflict다. 코드의 어떤 위치는 문법과 의미 때문에 매우 좁은 token 선택이 필요하지만, 다른 위치는 서로 다른 풀이 전략이 갈라지는 fork point라 탐색이 유리하다. SSD는 이런 문맥 차이에 맞춰 token 분포를 다시 빚어 precision이 중요한 구간에서는 distractor tail을 줄이고, exploration이 필요한 구간에서는 유용한 다양성을 남긴다는 것이 저자들의 주장이다.
HN 이용자들이 이 결과에 주목한 이유도 바로 단순성이다. 복잡한 RL stack이나 별도 verifier 없이도 post-training 단계에서 코딩 성능을 실질적으로 개선할 수 있다면, frontier lab 밖의 팀도 빠르게 재현 실험을 해볼 수 있기 때문이다. 물론 self-generated data를 만드는 비용, 실제 coding agent 워크플로로의 전이, benchmark 의존성 같은 질문은 남아 있다. 그래도 “작고 단순한 처방”이 큰 개선을 만들 수 있다는 메시지는 충분히 강하다.
- 핵심 recipe에는 verifier model, teacher model, RL loop가 들어가지 않는다.
- 대표 결과는 Qwen3-30B-Instruct의 LiveCodeBench v6 pass@1을 42.4%에서 55.3%로 끌어올린 것이다.
- 논문은 precision이 중요한 위치와 exploration이 중요한 위치를 다르게 다루는 것이 성능 향상의 핵심이라고 본다.
Related Articles
Hacker News에서 주목받은 새 논문은 verifier나 teacher model, reinforcement learning 없이도 모델이 자기 답안을 바탕으로 코드 생성 성능을 높일 수 있다고 주장한다. 논문은 Qwen3-30B-Instruct가 LiveCodeBench v6 pass@1에서 42.4%에서 55.3%로 상승했다고 보고했다.
Stanford의 공개 CS25 강의는 Zoom, recordings, Discord를 통해 campus 밖까지 확장된 Transformer 연구 학습 채널로 다시 작동하고 있다.
r/LocalLLaMA에서 CoPaw-9B 관련 글이 142점과 29개 댓글을 기록하며 주목을 받았다. 스레드는 Qwen3.5 기반의 9B Agent 모델, 262,144 token context, 그리고 GGUF·quantized 배포 가능성에 대한 관심을 중심으로 반응이 갈렸다.
Comments (0)
No comments yet. Be the first to comment!