#terminal-bench

LLM Reddit Apr 28, 2026 1 min read

ローカルコーディング38.2%、LocalLLaMAが見たのは点数より導入ライン

LocalLLaMAが熱くなった理由は絶対値の点数だけではない。2026年4月28日のこの投稿は、Qwen 3.6-27BのTerminal-Bench 2.0での38.2%をlate-2025 frontier相当と結びつけ、ローカルコーディングを導入判断の土俵に乗せた。

#qwen #terminal-bench #local-llms

LLM Hacker News Apr 8, 2026 1 min read

Hacker Newsが見た GLM-5.1、long-horizon agentic engineering を前に進める

Hacker News で浮上した Z.ai の GLM-5.1 は、one-shot の勝ち負けよりも長時間の agentic work を前面に出している。Z.ai は SWE-Bench Pro 58.4、NL2Repo 42.7、Terminal Bench 2.0 66.5 を示し、数百回の iteration と数千回の tool call を通じて改善が続く実験も公開した。

#glm-5.1 #agentic-coding #swe-bench