Karpathy, 단일 GPU nanochat 실험을 자동화하는 autoresearch 공개
Original: Karpathy open-sources autoresearch for autonomous single-GPU nanochat experiments View original →
Karpathy가 공개한 것
Andrej Karpathy는 2026년 3월 7일 최근 진행하던 autoresearch 작업을 주말 동안 바로 시험해볼 수 있는 self-contained repository로 정리했다고 밝혔다. 트윗에 따르면 이 project는 nanochat training core를 단일 GPU용으로 크게 줄인 뒤, 사람은 Markdown instruction을 다듬고 AI agent는 Python training code를 바꾸는 구조를 취한다. 즉 일회성 code generation보다, code 변경 제안과 실험, 평가, 반복을 하나의 loop로 묶는 데 초점이 있다.
repo는 어떻게 작동하나
GitHub 페이지는 autoresearch를 single-GPU nanochat training을 AI agent가 자동으로 연구하는 환경으로 설명한다. 각 실험은 정확히 5분으로 고정되며, 이 기준이면 시간당 약 12회, 밤새 약 100회 수준의 run이 가능하다고 적혀 있다. Agent는 Git feature branch 위에서 commit을 쌓고, 주관적 판단 대신 validation loss가 더 낮아졌는지로 변경을 선택한다. Karpathy의 관점에서는 사람이 training loop를 직접 손보는 대신, program.md 같은 파일을 통해 연구 조직 자체를 프로그래밍해야 한다는 메시지에 가깝다.
Repository는 의도적으로 작다. Karpathy는 단일 GPU 설정 기준으로 training core를 약 630 lines 수준까지 압축했다고 설명한다. 이렇게 해야 agent가 전체 흐름을 읽고 수정하기 쉬워진다. README는 현재 버전이 단일 NVIDIA GPU를 전제로 하지만, 다른 platform 지원은 fork로 확장할 수 있다고도 적는다. 이 범위 설정은 실험을 빠르게 돌릴 만큼 작으면서도, agent가 실제로 비사소한 training system을 개선할 수 있는지 검증할 만큼은 현실적인 균형을 노린 것으로 보인다.
왜 중요한가
핵심은 nanochat 자체보다 autonomous research를 측정 가능하고 반복 가능하게 만들려는 시도다. 5분 고정 run, Git 기반 versioning, validation loss 선택 규칙이 결합되면 prompt, agent, coordination 방식의 차이를 비교하기 쉬운 testbed가 된다. 이런 유형의 project가 성숙하면 연구팀의 질문도 달라진다. agent가 code를 쓰는가가 아니라, 시간이 지날수록 누적되는 실험 프로그램을 스스로 운영할 수 있는가가 더 중요한 평가 기준이 될 수 있다.
출처: Karpathy X post, GitHub
Related Articles
기업 RAG의 약점은 답을 모르는 것이 아니라, 필요한 근거가 다른 저장소에 흩어졌을 때 너무 일찍 멈추는 데 있다. Google Research는 충분한 문맥을 검사하고 다시 검색하는 Agentic RAG로 factuality 데이터셋 정확도를 최대 34% 높였다고 밝혔다.
530점 넘게 오른 관심은 “Claude가 보안 버그를 찾는다”보다, 팀마다 직접 고쳐 쓸 수 있는 harness의 모양에 모였다.
오픈 모델 경쟁이 단순 성능표에서 장시간 에이전트 비용으로 이동하고 있다. NVIDIA는 Nemotron 3 Ultra가 550B MoE 구조로 5배 빠른 추론과 최대 30% 낮은 복잡 작업 비용을 낸다고 밝혔다.