LLM Reddit Apr 4, 2026 1 min read
`r/LocalLLaMA` で話題になった YC-Bench は、モデルに 1 年間 startup を運営させる長期 horizon の agent benchmark だ。12 モデルのうち開始資本を安定して上回ったのは 3 モデルだけで、GLM-5 ははるかに低コストで Claude Opus 4.6 に迫った。
`r/LocalLLaMA` で話題になった YC-Bench は、モデルに 1 年間 startup を運営させる長期 horizon の agent benchmark だ。12 モデルのうち開始資本を安定して上回ったのは 3 モデルだけで、GLM-5 ははるかに低コストで Claude Opus 4.6 に迫った。