Autoresearch, single-GPU nanochat을 overnight agent 연구 루프로 바꾼다
Original: Autoresearch: Agents researching on single-GPU nanochat training automatically View original →
Hacker News에 올라온 Autoresearch는 "AI가 스스로 연구한다"는 막연한 슬로건을 작은 단위의 재현 가능한 loop로 바꿔 놓은 저장소다. Andrej Karpathy는 이 프로젝트를 single-GPU 환경의 단순한 nanochat 학습 셋업에 agent를 붙여 overnight 실험을 반복하는 형태로 설명한다. 핵심 아이디어는 agent가 코드를 조금 바꾸고, 5분 동안 학습을 돌리고, 결과가 좋아졌는지 확인한 뒤 변경을 유지하거나 폐기하는 것이다.
구성도 일부러 작게 유지돼 있다. README에 따르면 고정 상수와 데이터 준비는 prepare.py, agent가 직접 수정하는 대상은 train.py, 사람이 바꾸는 지시문은 program.md다. 즉 사람은 연구 조직의 규칙을 적고, agent는 실제 학습 코드 한 파일만 건드린다. 이 제한 덕분에 변경 범위가 작고 diff를 검토하기 쉬우며, agent 성능을 과장된 데모가 아니라 코드 수준에서 확인할 수 있다.
Autoresearch의 운영 방식
- single NVIDIA GPU 기반의 단순한 학습 환경
- 실험 시간은 startup을 제외한 고정 5분
- 비교 지표는
val_bpb이며 낮을수록 좋음 - agent는
train.py만 수정하고 사람은program.md를 조정 - Python 3.10+,
uv, prepare step 이후 바로 실험 가능
이 설계의 장점은 objective가 명확하다는 점이다. 학습 시간이 매번 동일하므로 모델 구조, optimizer, batch size를 바꿔도 실험끼리 비교가 가능하다. README는 이 구조 덕분에 시간 예산 안에서 플랫폼별로 가장 효율적인 구성을 agent가 찾아가게 된다고 설명한다. 또한 한 GPU, 한 metric, 한 파일 수정이라는 제약이 있기 때문에, 대규모 infra 없이도 agentic research workflow를 시험할 수 있다.
물론 범위는 제한적이다. 프로젝트는 H100에서 테스트됐고, README는 CPU나 MPS 등 다른 backend 지원이 충분하지 않다고 솔직히 적고 있다. 그럼에도 이 저장소가 주목받는 이유는 거창한 autonomy 선언이 아니라, 사람이 직접 읽고 돌려볼 수 있는 최소 단위의 연구 자동화를 보여주기 때문이다. HN 이용자 입장에서는 "AI agent가 연구한다"는 추상적 주장보다, 실제로 어떤 파일을 바꾸고 어떤 지표로 채택 여부를 판단하는지가 훨씬 중요하다. Autoresearch는 바로 그 경계를 명확히 드러낸다.
Related Articles
Andrej Karpathy가 축소형 nanochat training loop를 AI agent가 overnight로 반복 실험할 수 있게 하는 autoresearch repo를 공개했다. 고정 5분 실험, Git branch, validation loss 기반 선택을 묶어 agent 연구를 closed-loop workflow로 바꾸려는 시도다.
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.
Comments (0)
No comments yet. Be the first to comment!