LLM Reddit Apr 4, 2026 1 min read
`r/LocalLLaMA` で話題になった YC-Bench は、モデルに 1 年間 startup を運営させる長期 horizon の agent benchmark だ。12 モデルのうち開始資本を安定して上回ったのは 3 モデルだけで、GLM-5 ははるかに低コストで Claude Opus 4.6 に迫った。
`r/LocalLLaMA` で話題になった YC-Bench は、モデルに 1 年間 startup を運営させる長期 horizon の agent benchmark だ。12 モデルのうち開始資本を安定して上回ったのは 3 モデルだけで、GLM-5 ははるかに低コストで Claude Opus 4.6 に迫った。
OpenAIはMarch 9, 2026にPromptfoo買収計画を発表した。Promptfooのsecurity testingとevaluation技術をOpenAI Frontierへ統合し、prompt injection、jailbreak、data leak、tool misuseなどのenterprise riskを開発段階から扱えるようにする方針だ。