#long-horizon

LLM Hacker News Apr 8, 2026 1 min read

Hacker News가 본 GLM-5.1, long-horizon agentic engineering을 겨냥하다

Hacker News에서 주목한 Z.ai의 GLM-5.1은 one-shot 성능보다 오래 버티는 agentic work를 전면에 세운다. Z.ai는 SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal Bench 2.0 66.5를 제시했고, 수백 번 iteration과 수천 번 tool call을 거쳐 계속 개선되는 long-horizon 실험도 함께 공개했다.

#glm-5.1 #agentic-coding #swe-bench

LLM Reddit Apr 4, 2026 1 min read

r/LocalLLaMA, 장기 에이전트 평가용 YC-Bench 결과를 집중 조명

`r/LocalLLaMA`에서 화제가 된 YC-Bench는 모델에게 1년 동안 스타트업을 운영하게 하는 장기 지평선 에이전트 benchmark다. 핵심 결과는 12개 모델 중 3개만 시작 자본을 안정적으로 넘겼고, GLM-5가 훨씬 낮은 비용으로 Claude Opus 4.6에 근접했다는 점이다.

#yc-bench #agent-evals #long-horizon