Hacker Newsで議論、16 GPU版Autoresearchは何を変えたのか
Original: Scaling Karpathy's Autoresearch: What Happens When the Agent Gets a GPU Cluster View original →
2026年3月19日、Hacker Newsで「Scaling Karpathy's Autoresearch: What Happens When the Agent Gets a GPU Cluster」が前面に出て、このクロール時点で168 points、71 commentsを集めた。リンク先のSkyPilot記事では、Claude CodeをAndrej Karpathyの autoresearch に向け、約8時間にわたって16 GPUsを自律的に運用させたと説明している。報告値は、提出実験がおよそ910件、有効実行が約700件、そして各試行を5分の固定 training budget に収めたまま val_bpb を 1.003 から 0.974 まで下げたというものだ.
GPUが増えて何が変わったのか
- 実験処理量は 1 GPU で毎時約10件だったものが、16 GPUs では毎時約90件に伸びた.
- agent は 1 回ごとに 1 つの変数をいじる greedy tuning ではなく、10〜13本の実験を parallel wave として流し、相互作用する hyperparameter をまとめて見に行く形になった.
- 最大の改善は単一の optimizer tweak よりも、aspect ratio 96、つまり model_dim 768 への拡張から出た.
- 記事によれば、agent は H200 が同じ wall-clock budget の中でより良い結果を出すことに自力で気づき、H100 で広く screening し、H200 で confirmation を行う流れまで作った.
この最後の点が、この記事を単なる hyperparameter tuning の話以上のものにしている。SkyPilot側の主張は、agent が heterogeneous hardware を自分で確保し、順番を決め、使い分けられるようになると、研究の振る舞いそのものが変わるということだ。agent がやっているのは train.py の編集だけではない。どこに compute を配分するか、どの候補を速い GPU に回すか、どういう順番で検証するかまで含めて研究フローを組み立てている。cluster を持つチームにとっては、この orchestration layer がモデル側の変更と同じくらい重要になりうる.
Hacker Newsで議論された点
- 一部の読者は、これは本質的には大きな予算で回した parallel hyperparameter search であって、機械研究の新しい形ではないと見た.
- 一方で別の読者は、wall-clock speed こそが重要だと指摘した。数日かかる探索を1回の作業時間に圧縮できるなら、研究の実務は確実に変わるからだ.
- また、人に教えられずに agent が H100/H200 の二層戦略を作った点を高く評価するコメントも目立った.
懐疑的な読み方も十分に価値がある。GPU-hour の効率が多少悪くなっても、iteration が速くなるなら運用上のインパクトは大きい。実際の applied AI では、理想的な GPU utilization より研究者の時間のほうがボトルネックになることが多い。この実験は autonomous research の完成を証明するものではないが、agent がインフラを直接扱い始めた瞬間、研究ループが単なる optimizer 実行から lab operations に近いものへ変わることははっきり示している。
Related Articles
Together AIはMarch 13, 2026にOpen Deep Research v2をfully free & open sourceとして公開した。併せて公開されたblogは、multi-hop web research向けのplannerとself-reflection workflow、そしてcodeとevaluation assetを説明している。
Q Labsは100M tokensと18B-parameter ensembleで1B-token baselineに匹敵すると主張し、Hacker Newsではその利得が serving と deployment まで成立するのかがすぐに論点になった。
Perplexityは2026年3月11日、search、tool execution、multi-model orchestrationをまとめたAgent APIを発表した。今回の公開によって、Perplexityは単なるanswer interfaceよりも、production agent workflow向けのruntime providerとしての色を強めている。
Comments (0)
No comments yet. Be the first to comment!