#terminal-bench

LLM Reddit Apr 28, 2026 1 min read

로컬 코딩 모델 38.2%, LocalLLaMA가 본 건 점수보다 배치 가능성

LocalLLaMA가 뜨거웠던 이유는 절대 점수만이 아니었다. 2026년 4월 28일 올라온 이 글은 Qwen 3.6-27B의 Terminal-Bench 2.0 38.2%를 late-2025 frontier 수준과 연결했고, 그 순간 로컬 코딩은 장난감이 아니라 배치 옵션으로 읽히기 시작했다.

#qwen #terminal-bench #local-llms

LLM Hacker News Apr 8, 2026 1 min read

Hacker News가 본 GLM-5.1, long-horizon agentic engineering을 겨냥하다

Hacker News에서 주목한 Z.ai의 GLM-5.1은 one-shot 성능보다 오래 버티는 agentic work를 전면에 세운다. Z.ai는 SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal Bench 2.0 66.5를 제시했고, 수백 번 iteration과 수천 번 tool call을 거쳐 계속 개선되는 long-horizon 실험도 함께 공개했다.

#glm-5.1 #agentic-coding #swe-bench