Autoresearch, single-GPU nanochat을 overnight agent 연구 루프로 바꾼다

Hacker News에 올라온 Autoresearch는 "AI가 스스로 연구한다"는 막연한 슬로건을 작은 단위의 재현 가능한 loop로 바꿔 놓은 저장소다. Andrej Karpathy는 이 프로젝트를 single-GPU 환경의 단순한 nanochat 학습 셋업에 agent를 붙여 overnight 실험을 반복하는 형태로 설명한다. 핵심 아이디어는 agent가 코드를 조금 바꾸고, 5분 동안 학습을 돌리고, 결과가 좋아졌는지 확인한 뒤 변경을 유지하거나 폐기하는 것이다.

구성도 일부러 작게 유지돼 있다. README에 따르면 고정 상수와 데이터 준비는 prepare.py, agent가 직접 수정하는 대상은 train.py, 사람이 바꾸는 지시문은 program.md다. 즉 사람은 연구 조직의 규칙을 적고, agent는 실제 학습 코드 한 파일만 건드린다. 이 제한 덕분에 변경 범위가 작고 diff를 검토하기 쉬우며, agent 성능을 과장된 데모가 아니라 코드 수준에서 확인할 수 있다.

Autoresearch의 운영 방식

single NVIDIA GPU 기반의 단순한 학습 환경
실험 시간은 startup을 제외한 고정 5분
비교 지표는 val_bpb이며 낮을수록 좋음
agent는 train.py만 수정하고 사람은 program.md를 조정
Python 3.10+, uv, prepare step 이후 바로 실험 가능

이 설계의 장점은 objective가 명확하다는 점이다. 학습 시간이 매번 동일하므로 모델 구조, optimizer, batch size를 바꿔도 실험끼리 비교가 가능하다. README는 이 구조 덕분에 시간 예산 안에서 플랫폼별로 가장 효율적인 구성을 agent가 찾아가게 된다고 설명한다. 또한 한 GPU, 한 metric, 한 파일 수정이라는 제약이 있기 때문에, 대규모 infra 없이도 agentic research workflow를 시험할 수 있다.

물론 범위는 제한적이다. 프로젝트는 H100에서 테스트됐고, README는 CPU나 MPS 등 다른 backend 지원이 충분하지 않다고 솔직히 적고 있다. 그럼에도 이 저장소가 주목받는 이유는 거창한 autonomy 선언이 아니라, 사람이 직접 읽고 돌려볼 수 있는 최소 단위의 연구 자동화를 보여주기 때문이다. HN 이용자 입장에서는 "AI agent가 연구한다"는 추상적 주장보다, 실제로 어떤 파일을 바꾸고 어떤 지표로 채택 여부를 판단하는지가 훨씬 중요하다. Autoresearch는 바로 그 경계를 명확히 드러낸다.

Autoresearch, single-GPU nanochat을 overnight agent 연구 루프로 바꾼다

Autoresearch의 운영 방식

Related Articles

Google Deep Research, Gemini 3.1 Pro·MCP 연결로 기업 조사 에이전트화

Qwen3.6에 LocalLLaMA가 들뜬 이유: benchmark보다 agent가 고치는 모습이었다

Codex 주간 사용자 400만 돌파… OpenAI, Codex Labs와 7개 GSI 배포망

Comments (0)

Leave a Comment

Related Articles

Google Deep Research, Gemini 3.1 Pro·MCP 연결로 기업 조사 에이전트화
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.

Qwen3.6에 LocalLLaMA가 들뜬 이유: benchmark보다 agent가 고치는 모습이었다
LLM Reddit Apr 20, 2026 1 min read

Codex 주간 사용자 400만 돌파… OpenAI, Codex Labs와 7개 GSI 배포망
이건 단순한 이용자 숫자 기사가 아니라 유통 전략 기사에 가깝다. OpenAI는 4월 초 주간 개발자 300만명 이상이던 Codex가 2주 만에 400만명을 넘겼고, 이 수요를 Codex Labs와 7개 GSI 파트너 체제로 받아내겠다고 했다.