Autoresearch, single-GPU nanochat을 overnight agent 연구 루프로 바꾼다
Original: Autoresearch: Agents researching on single-GPU nanochat training automatically View original →
Hacker News에 올라온 Autoresearch는 "AI가 스스로 연구한다"는 막연한 슬로건을 작은 단위의 재현 가능한 loop로 바꿔 놓은 저장소다. Andrej Karpathy는 이 프로젝트를 single-GPU 환경의 단순한 nanochat 학습 셋업에 agent를 붙여 overnight 실험을 반복하는 형태로 설명한다. 핵심 아이디어는 agent가 코드를 조금 바꾸고, 5분 동안 학습을 돌리고, 결과가 좋아졌는지 확인한 뒤 변경을 유지하거나 폐기하는 것이다.
구성도 일부러 작게 유지돼 있다. README에 따르면 고정 상수와 데이터 준비는 prepare.py, agent가 직접 수정하는 대상은 train.py, 사람이 바꾸는 지시문은 program.md다. 즉 사람은 연구 조직의 규칙을 적고, agent는 실제 학습 코드 한 파일만 건드린다. 이 제한 덕분에 변경 범위가 작고 diff를 검토하기 쉬우며, agent 성능을 과장된 데모가 아니라 코드 수준에서 확인할 수 있다.
Autoresearch의 운영 방식
- single NVIDIA GPU 기반의 단순한 학습 환경
- 실험 시간은 startup을 제외한 고정 5분
- 비교 지표는
val_bpb이며 낮을수록 좋음 - agent는
train.py만 수정하고 사람은program.md를 조정 - Python 3.10+,
uv, prepare step 이후 바로 실험 가능
이 설계의 장점은 objective가 명확하다는 점이다. 학습 시간이 매번 동일하므로 모델 구조, optimizer, batch size를 바꿔도 실험끼리 비교가 가능하다. README는 이 구조 덕분에 시간 예산 안에서 플랫폼별로 가장 효율적인 구성을 agent가 찾아가게 된다고 설명한다. 또한 한 GPU, 한 metric, 한 파일 수정이라는 제약이 있기 때문에, 대규모 infra 없이도 agentic research workflow를 시험할 수 있다.
물론 범위는 제한적이다. 프로젝트는 H100에서 테스트됐고, README는 CPU나 MPS 등 다른 backend 지원이 충분하지 않다고 솔직히 적고 있다. 그럼에도 이 저장소가 주목받는 이유는 거창한 autonomy 선언이 아니라, 사람이 직접 읽고 돌려볼 수 있는 최소 단위의 연구 자동화를 보여주기 때문이다. HN 이용자 입장에서는 "AI agent가 연구한다"는 추상적 주장보다, 실제로 어떤 파일을 바꾸고 어떤 지표로 채택 여부를 판단하는지가 훨씬 중요하다. Autoresearch는 바로 그 경계를 명확히 드러낸다.
Related Articles
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.
r/LocalLLaMA가 900점 넘게 반응한 이유는 Qwen3.6 score표가 아니라, local coding agent가 canvas bug와 wave completion issue를 스스로 찾아 고쳤다는 사용기였다.
이건 단순한 이용자 숫자 기사가 아니라 유통 전략 기사에 가깝다. OpenAI는 4월 초 주간 개발자 300만명 이상이던 Codex가 2주 만에 400만명을 넘겼고, 이 수요를 Codex Labs와 7개 GSI 파트너 체제로 받아내겠다고 했다.
Comments (0)
No comments yet. Be the first to comment!