r/LocalLLaMA가 주목한 tinyforge, 0.8B 모델의 로컬 self-improvement
Original: Ran an experiment: 0.8B model teaching itself on a MacBook Air with 6GB RAM. Some findings that surprised me. View original →
왜 LocalLLaMA가 이 실험에 반응했나
r/LocalLLaMA 글은 tinyforge라는 작은 실험을 소개한다. 설정은 과장보다 단순하다. 작성자는 Qwen 3.5 0.8B의 4-bit variant를 MacBook Air에서 돌리고, coding problem을 풀게 한 뒤 test failure를 정확한 input, expected output, actual output 형태로 다시 보여준다. 한 번만 다시 묻는 것이 아니라 여러 candidate를 동시에 생성해 더 나은 답을 남기는 evolutionary search를 섞고, 실패한 답과 고쳐진 답을 repair pair로 묶어 LoRA training에 사용한다. 핵심은 teacher model이나 cloud API 없이, verification 가능한 task만으로 자기개선을 유도했다는 점이다.
post와 tinyforge README가 제시한 숫자는 꽤 인상적이다. fresh holdout slice에서 single-pass 성능이 16/50에서 28/50으로 올라갔고, training에 사용한 repair pair는 13개뿐이었다고 한다. 또 다른 overnight slice에서는 feedback loop 안에서 42/58이 47/58로 개선됐다고 적는다. 작성자는 실험 전체가 6GB RAM급 환경에 들어가며 training peak는 대략 10GB 수준이었다고 설명한다. LocalLLaMA가 이 글을 좋아한 이유도 여기 있다. “작은 모델은 별 수 없다”는 체념 대신, feedback utilization 자체를 학습시킬 수 있다는 방향을 보여줬기 때문이다.
이 접근이 흥미로운 진짜 이유
작성자가 스스로 가장 놀랐다고 적은 부분은 cold generation의 대폭 향상이 아니라, 모델이 failure feedback를 활용하는 방식이 더 좋아졌다는 점이다. 즉, 정답을 외우는 쪽보다 “무엇이 틀렸는지 들었을 때 어떻게 고칠지”를 배우는 쪽이 작은 모델에 더 잘 맞았다는 이야기다. 이 해석이 맞다면 code 말고도 SQL, data transform, 수학처럼 자동 검증이 가능한 영역으로 같은 loop를 확장할 수 있다.
- teacher model 없이 self-generated repair pair만으로 training했다.
- 관측된 이득은 cold solve보다 feedback-aware repair에서 더 컸다.
- 아직 작은 slice 기반 실험이므로 넓은 benchmark replication이 필요하다.
그래서 이 글은 단순한 laptop demo보다 의미가 크다. local hardware 위의 tiny model도, 좋은 reward signal과 verification loop가 있으면 조금 다른 종류의 competence를 배울 수 있다는 신호를 주기 때문이다.
Related Articles
LocalLLaMA의 한 구현 보고는 Apple Silicon용 native MLX DFlash runtime으로 Qwen 계열 inference를 2배에서 3배 이상 가속했다고 주장한다. 중요한 점은 speedup뿐 아니라 greedy baseline과 bit-for-bit identical output을 유지했다고 설명한 부분이다.
r/LocalLLaMA에서 주목받은 March 28, 2026 게시물은 TurboQuant KV cache compression을 MLX와 custom Metal kernel에 이식한 구현 기록이다. 작성자는 Qwen2.5-32B on M4 Pro 48GB에서 4.6x compression과 0.98x FP16 speed를 주장했지만, repo README의 7B 수치는 더 보수적이어서 실제 이득이 model과 integration 방식에 크게 좌우된다는 점도 함께 드러난다.
r/LocalLLaMA의 새 글은 M5 Max와 MLX 0.31.1 환경에서 DFlash speculative decoding을 공개하고, Qwen3.5-9B에서 127.07 tok/s와 4.13x speedup을 보고했다. 중요한 점은 headline보다 재현 조건과 bandwidth bottleneck 해석이 구체적이라는 데 있다.
Comments (0)
No comments yet. Be the first to comment!