Karpathy、autoresearchで nanochat の Time to GPT-2 を約11%短縮したと報告

Andrej Karpathyは2026年3月9日、Xで自身の open-source autoresearch setup によって nanochat の Time to GPT-2 が 2.02 hours から 1.80 hours に下がったと述べた。改善幅は約11 percent だという。彼は depth=12 model で agent が約2日間自律的に実験し、約20件の additive improvement を見つけ、全体では約700件の変更を探索したうえで、その結果を depth=24 model に反映したと説明している。

この主張が注目されるのは、autoresearch が単なる hyperparameter sweep ではないからだ。Karpathy が公開した repo README によれば、この project は AI agent が小規模だが実際に動く training setup を直接編集し、5分単位の実験を回し、validation bits per byte を評価して、改善があれば残し、悪ければ捨てるという流れで動く。中心となる対象は single-GPU 版の nanochat で、agent は主に train.py を編集し、人間は program.md を変えて研究方針を与える。

Karpathyはこのラウンドの結果を反映した commit も公開した。変更内容は optimizer と schedule、attention scaling、initialization、attention window、regularization にまたがる。彼は post-QK-norm scaling による sharper attention、per-group Adam の設定、weight decay schedule の調整、value embedding regularization の見直しなどを具体例として挙げている。README では default setup が single NVIDIA GPU を前提にし、H100 で検証したとしている。

ただし、この結果は独立に監査された benchmark ではなく、Karpathy 自身による source claim として受け取るべきだ。本人もこの成果をまだ novel research ではないと位置付けており、数値そのものより、model training の改善探索を agent swarm がかなりの部分自動化できるという engineering proof point に重心を置いている。

もしこの手法がより広いスケールで再現できるなら、今後の model development stack では、個別の training tweak を手で書くことよりも、evaluation loop、制約条件、research instruction をどう設計するかがボトルネックになる可能性がある。小さな実験を大きな run の proxy として扱えるチームほど、この種の autoresearch を早く試す動機が強まりそうだ。

Karpathy、autoresearchで nanochat の Time to GPT-2 を約11%短縮したと報告

Related Articles

Autoresearch、single-GPUのnanochatをovernight agent研究ループに変える

Karpathy、単一GPUのnanochat実験を自動化するautoresearchを公開

DiracがTerminalBench首位　HNが食いついたのは点数よりトークン設計

Comments (0)

Leave a Comment