Karpathy, 단일 GPU nanochat 실험을 자동화하는 autoresearch 공개
Original: Karpathy open-sources autoresearch for autonomous single-GPU nanochat experiments View original →
Karpathy가 공개한 것
Andrej Karpathy는 2026년 3월 7일 최근 진행하던 autoresearch 작업을 주말 동안 바로 시험해볼 수 있는 self-contained repository로 정리했다고 밝혔다. 트윗에 따르면 이 project는 nanochat training core를 단일 GPU용으로 크게 줄인 뒤, 사람은 Markdown instruction을 다듬고 AI agent는 Python training code를 바꾸는 구조를 취한다. 즉 일회성 code generation보다, code 변경 제안과 실험, 평가, 반복을 하나의 loop로 묶는 데 초점이 있다.
repo는 어떻게 작동하나
GitHub 페이지는 autoresearch를 single-GPU nanochat training을 AI agent가 자동으로 연구하는 환경으로 설명한다. 각 실험은 정확히 5분으로 고정되며, 이 기준이면 시간당 약 12회, 밤새 약 100회 수준의 run이 가능하다고 적혀 있다. Agent는 Git feature branch 위에서 commit을 쌓고, 주관적 판단 대신 validation loss가 더 낮아졌는지로 변경을 선택한다. Karpathy의 관점에서는 사람이 training loop를 직접 손보는 대신, program.md 같은 파일을 통해 연구 조직 자체를 프로그래밍해야 한다는 메시지에 가깝다.
Repository는 의도적으로 작다. Karpathy는 단일 GPU 설정 기준으로 training core를 약 630 lines 수준까지 압축했다고 설명한다. 이렇게 해야 agent가 전체 흐름을 읽고 수정하기 쉬워진다. README는 현재 버전이 단일 NVIDIA GPU를 전제로 하지만, 다른 platform 지원은 fork로 확장할 수 있다고도 적는다. 이 범위 설정은 실험을 빠르게 돌릴 만큼 작으면서도, agent가 실제로 비사소한 training system을 개선할 수 있는지 검증할 만큼은 현실적인 균형을 노린 것으로 보인다.
왜 중요한가
핵심은 nanochat 자체보다 autonomous research를 측정 가능하고 반복 가능하게 만들려는 시도다. 5분 고정 run, Git 기반 versioning, validation loss 선택 규칙이 결합되면 prompt, agent, coordination 방식의 차이를 비교하기 쉬운 testbed가 된다. 이런 유형의 project가 성숙하면 연구팀의 질문도 달라진다. agent가 code를 쓰는가가 아니라, 시간이 지날수록 누적되는 실험 프로그램을 스스로 운영할 수 있는가가 더 중요한 평가 기준이 될 수 있다.
출처: Karpathy X post, GitHub
Related Articles
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.
r/LocalLLaMA가 900점 넘게 반응한 이유는 Qwen3.6 score표가 아니라, local coding agent가 canvas bug와 wave completion issue를 스스로 찾아 고쳤다는 사용기였다.
HN이 이 저장소를 밀어 올린 이유는 또 다른 브라우저 자동화 래퍼라서가 아니다. 작업 도중 모델이 직접 브라우저 도우미 함수를 고쳐가며 진행한다는 발상이 더 크게 먹혔다.
Comments (0)
No comments yet. Be the first to comment!