Karpathy, 단일 GPU nanochat 실험을 자동화하는 autoresearch 공개

Karpathy가 공개한 것

Andrej Karpathy는 2026년 3월 7일 최근 진행하던 autoresearch 작업을 주말 동안 바로 시험해볼 수 있는 self-contained repository로 정리했다고 밝혔다. 트윗에 따르면 이 project는 nanochat training core를 단일 GPU용으로 크게 줄인 뒤, 사람은 Markdown instruction을 다듬고 AI agent는 Python training code를 바꾸는 구조를 취한다. 즉 일회성 code generation보다, code 변경 제안과 실험, 평가, 반복을 하나의 loop로 묶는 데 초점이 있다.

repo는 어떻게 작동하나

GitHub 페이지는 autoresearch를 single-GPU nanochat training을 AI agent가 자동으로 연구하는 환경으로 설명한다. 각 실험은 정확히 5분으로 고정되며, 이 기준이면 시간당 약 12회, 밤새 약 100회 수준의 run이 가능하다고 적혀 있다. Agent는 Git feature branch 위에서 commit을 쌓고, 주관적 판단 대신 validation loss가 더 낮아졌는지로 변경을 선택한다. Karpathy의 관점에서는 사람이 training loop를 직접 손보는 대신, program.md 같은 파일을 통해 연구 조직 자체를 프로그래밍해야 한다는 메시지에 가깝다.

Repository는 의도적으로 작다. Karpathy는 단일 GPU 설정 기준으로 training core를 약 630 lines 수준까지 압축했다고 설명한다. 이렇게 해야 agent가 전체 흐름을 읽고 수정하기 쉬워진다. README는 현재 버전이 단일 NVIDIA GPU를 전제로 하지만, 다른 platform 지원은 fork로 확장할 수 있다고도 적는다. 이 범위 설정은 실험을 빠르게 돌릴 만큼 작으면서도, agent가 실제로 비사소한 training system을 개선할 수 있는지 검증할 만큼은 현실적인 균형을 노린 것으로 보인다.

왜 중요한가

핵심은 nanochat 자체보다 autonomous research를 측정 가능하고 반복 가능하게 만들려는 시도다. 5분 고정 run, Git 기반 versioning, validation loss 선택 규칙이 결합되면 prompt, agent, coordination 방식의 차이를 비교하기 쉬운 testbed가 된다. 이런 유형의 project가 성숙하면 연구팀의 질문도 달라진다. agent가 code를 쓰는가가 아니라, 시간이 지날수록 누적되는 실험 프로그램을 스스로 운영할 수 있는가가 더 중요한 평가 기준이 될 수 있다.

출처: Karpathy X post, GitHub

Karpathy, 단일 GPU nanochat 실험을 자동화하는 autoresearch 공개

Karpathy가 공개한 것

repo는 어떻게 작동하나

왜 중요한가

Related Articles

Google Agentic RAG, 답 못 찾는 검색을 34% 정확도 개선으로

Anthropic vuln harness, 제품보다 실험대에 가까운 이유

Nemotron 3 Ultra, 550B MoE로 에이전트 추론 5배 속도와 30% 비용 절감 제시