r/LocalLLaMA가 주목한 tinyforge, 0.8B 모델의 로컬 self-improvement

왜 LocalLLaMA가 이 실험에 반응했나

r/LocalLLaMA 글은 tinyforge라는 작은 실험을 소개한다. 설정은 과장보다 단순하다. 작성자는 Qwen 3.5 0.8B의 4-bit variant를 MacBook Air에서 돌리고, coding problem을 풀게 한 뒤 test failure를 정확한 input, expected output, actual output 형태로 다시 보여준다. 한 번만 다시 묻는 것이 아니라 여러 candidate를 동시에 생성해 더 나은 답을 남기는 evolutionary search를 섞고, 실패한 답과 고쳐진 답을 repair pair로 묶어 LoRA training에 사용한다. 핵심은 teacher model이나 cloud API 없이, verification 가능한 task만으로 자기개선을 유도했다는 점이다.

post와 tinyforge README가 제시한 숫자는 꽤 인상적이다. fresh holdout slice에서 single-pass 성능이 16/50에서 28/50으로 올라갔고, training에 사용한 repair pair는 13개뿐이었다고 한다. 또 다른 overnight slice에서는 feedback loop 안에서 42/58이 47/58로 개선됐다고 적는다. 작성자는 실험 전체가 6GB RAM급 환경에 들어가며 training peak는 대략 10GB 수준이었다고 설명한다. LocalLLaMA가 이 글을 좋아한 이유도 여기 있다. “작은 모델은 별 수 없다”는 체념 대신, feedback utilization 자체를 학습시킬 수 있다는 방향을 보여줬기 때문이다.

이 접근이 흥미로운 진짜 이유

작성자가 스스로 가장 놀랐다고 적은 부분은 cold generation의 대폭 향상이 아니라, 모델이 failure feedback를 활용하는 방식이 더 좋아졌다는 점이다. 즉, 정답을 외우는 쪽보다 “무엇이 틀렸는지 들었을 때 어떻게 고칠지”를 배우는 쪽이 작은 모델에 더 잘 맞았다는 이야기다. 이 해석이 맞다면 code 말고도 SQL, data transform, 수학처럼 자동 검증이 가능한 영역으로 같은 loop를 확장할 수 있다.

teacher model 없이 self-generated repair pair만으로 training했다.
관측된 이득은 cold solve보다 feedback-aware repair에서 더 컸다.
아직 작은 slice 기반 실험이므로 넓은 benchmark replication이 필요하다.

그래서 이 글은 단순한 laptop demo보다 의미가 크다. local hardware 위의 tiny model도, 좋은 reward signal과 verification loop가 있으면 조금 다른 종류의 competence를 배울 수 있다는 신호를 주기 때문이다.

r/LocalLLaMA가 주목한 tinyforge, 0.8B 모델의 로컬 self-improvement

왜 LocalLLaMA가 이 실험에 반응했나

이 접근이 흥미로운 진짜 이유

Related Articles

Gemma 4 12B, 별도 인코더 없이 노트북용 멀티모달 추론으로 Apache 2.0 공개

Gemma 4 12B, encoder 없는 multimodal 구조에 모인 관심

Cohere 미공개 coding model, LocalLLaMA가 먼저 만진 30B/3B MoE