r/LocalLLaMA、長期エージェント評価の YC-Bench に注目

r/LocalLLaMA の投稿が注目されたのは、短い benchmark prompt よりはるかにごまかしにくい評価を紹介していたからだ。投稿は YC-Bench の論文、公開 leaderboard、そして GitHub リポジトリを合わせて示し、agent が長い期間にわたり戦略的一貫性を保てるかを問う benchmark として位置づけている。local model の利用者が one-shot の派手さより operational reliability を重視し始めているからこそ、この話は広がった。

YC-Bench では、agent が数百ターンにわたって仮想 startup の CEO を務める。従業員管理、契約選択、給与支払い、収益維持まで扱い、しかも環境は部分観測で、一部の顧客は契約後に要求を膨らませる adversarial behavior を取る。論文の abstract によれば、研究者は 12 モデルを 3 seed ずつ評価し、開始資本の $200K を安定して上回ったのは 3 モデルだけだった。平均最終資金の首位は Claude Opus 4.6 の $1.27M、GLM-5 は推論コストを約 11 分の 1 に抑えつつ $1.21M に達した。

興味深いのは順位そのものより failure analysis だ。論文では、context truncation 後に情報を持ち越すほぼ唯一の手段である scratchpad の利用が成功を最も強く予測したとされる。また、bankruptcy の 47% は adversarial client を早期に見抜けなかったことが主因だった。つまり長期 horizon の agent 品質は、単純な知識量よりも、記録を残す習慣、戦略を維持する能力、遅れて返ってくる feedback に耐える運用力に近い。

この Reddit の議論が重要なのは、上級ユーザーが benchmark に求めるものが変わってきたことを示しているからだ。LocalLLaMA のようなコミュニティは、静的な reasoning score だけでは満足せず、変化する環境を扱い、学習内容を保持し、自分で戦略を崩さない能力の証拠を求めている。YC-Bench は simulation ではあるが、agent builder が本当に気にする長時間ワークフローへ一歩近づいた評価と言える。

r/LocalLLaMA、長期エージェント評価の YC-Bench に注目

Related Articles

ローカルAI実行の権利、論点は性能より利用者の支配権へ

きれいなコードはcoding agentの正答率より移動コストに効く

The Log is the Agent、agent runtimeをevent log中心に組み直す提案