LLM Reddit Apr 4, 2026 1 min read
`r/LocalLLaMA`에서 화제가 된 YC-Bench는 모델에게 1년 동안 스타트업을 운영하게 하는 장기 지평선 에이전트 benchmark다. 핵심 결과는 12개 모델 중 3개만 시작 자본을 안정적으로 넘겼고, GLM-5가 훨씬 낮은 비용으로 Claude Opus 4.6에 근접했다는 점이다.
`r/LocalLLaMA`에서 화제가 된 YC-Bench는 모델에게 1년 동안 스타트업을 운영하게 하는 장기 지평선 에이전트 benchmark다. 핵심 결과는 12개 모델 중 3개만 시작 자본을 안정적으로 넘겼고, GLM-5가 훨씬 낮은 비용으로 Claude Opus 4.6에 근접했다는 점이다.