Karpathy, 단일 GPU nanochat 실험을 자동화하는 autoresearch 공개
Original: Karpathy open-sources autoresearch for autonomous single-GPU nanochat experiments View original →
Karpathy가 공개한 것
Andrej Karpathy는 2026년 3월 7일 최근 진행하던 autoresearch 작업을 주말 동안 바로 시험해볼 수 있는 self-contained repository로 정리했다고 밝혔다. 트윗에 따르면 이 project는 nanochat training core를 단일 GPU용으로 크게 줄인 뒤, 사람은 Markdown instruction을 다듬고 AI agent는 Python training code를 바꾸는 구조를 취한다. 즉 일회성 code generation보다, code 변경 제안과 실험, 평가, 반복을 하나의 loop로 묶는 데 초점이 있다.
repo는 어떻게 작동하나
GitHub 페이지는 autoresearch를 single-GPU nanochat training을 AI agent가 자동으로 연구하는 환경으로 설명한다. 각 실험은 정확히 5분으로 고정되며, 이 기준이면 시간당 약 12회, 밤새 약 100회 수준의 run이 가능하다고 적혀 있다. Agent는 Git feature branch 위에서 commit을 쌓고, 주관적 판단 대신 validation loss가 더 낮아졌는지로 변경을 선택한다. Karpathy의 관점에서는 사람이 training loop를 직접 손보는 대신, program.md 같은 파일을 통해 연구 조직 자체를 프로그래밍해야 한다는 메시지에 가깝다.
Repository는 의도적으로 작다. Karpathy는 단일 GPU 설정 기준으로 training core를 약 630 lines 수준까지 압축했다고 설명한다. 이렇게 해야 agent가 전체 흐름을 읽고 수정하기 쉬워진다. README는 현재 버전이 단일 NVIDIA GPU를 전제로 하지만, 다른 platform 지원은 fork로 확장할 수 있다고도 적는다. 이 범위 설정은 실험을 빠르게 돌릴 만큼 작으면서도, agent가 실제로 비사소한 training system을 개선할 수 있는지 검증할 만큼은 현실적인 균형을 노린 것으로 보인다.
왜 중요한가
핵심은 nanochat 자체보다 autonomous research를 측정 가능하고 반복 가능하게 만들려는 시도다. 5분 고정 run, Git 기반 versioning, validation loss 선택 규칙이 결합되면 prompt, agent, coordination 방식의 차이를 비교하기 쉬운 testbed가 된다. 이런 유형의 project가 성숙하면 연구팀의 질문도 달라진다. agent가 code를 쓰는가가 아니라, 시간이 지날수록 누적되는 실험 프로그램을 스스로 운영할 수 있는가가 더 중요한 평가 기준이 될 수 있다.
출처: Karpathy X post, GitHub
Related Articles
Hacker News에서 화제가 된 Andrej Karpathy의 Autoresearch는 agent가 하나의 학습 파일을 수정하고 5분짜리 실험을 반복하며 `val_bpb`가 좋아진 경우만 남기는 최소형 연구 자동화 환경이다.
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
r/LocalLLaMA의 고득점 글은 llama-swap을 이용해 로컬 LLM 다중 모델 운영을 단순화한 경험을 공유한다. 단일 실행 파일, YAML 설정, systemd 자동 시작, 모델별 파라미터 필터링이 핵심 포인트로 제시됐다.
Comments (0)
No comments yet. Be the first to comment!