Skip to content

GLM-5.2、1M contextをcoding agent競争の実戦指標へ

Original: GLM-5.2 View original →

Read in other languages: 한국어English
LLM Jun 18, 2026 By Insights AI 1 min read Source

長いcontextを持つだけでは、coding agentの価値は決まらない。Z.AIのGLM-5.2文書は、1M tokensを読めることよりも、大規模codebaseの設計制約、module境界、API contract、test方針を長い作業の後半まで保てるかを前面に出している。

公開日は2026年6月16日のrelease notesで確認できる。Z.AIはGLM-5.2について、1M lossless contextに対応し、複雑な作業でcontext driftとgoal forgettingを減らし、codingおよびlong-horizon task benchmarkでopen-source SOTAに達したと説明している。モデルページ上の最大出力は128K tokensだ。

Tier-1として扱う理由は、benchmarkの主張が具体的だからだ。Z.AIはFrontierSWE、PostTrainBench、SWE-MarathonでGLM-5.2が全体上位に入り、FrontierSWEではClaude Opus 4.8との差が1%にとどまると記載した。標準的なcoding benchmarkではTerminal-Bench 2.1が81.0、SWE-bench Proが62.1。GLM-5.1の62.0と58.4から大きく伸びた形になる。

意味合いは、open-source系モデルが低価格や自社運用だけでなく、repo-scale engineeringそのものを競争領域にしている点にある。企業の開発現場では、長い入力を受け付けるかより、途中で前提を忘れず、既存の設計判断に沿って変更を進められるかが重要になる。

ただし、数値はZ.AI文書に基づく。独立した再現、実コードベースでの失敗率、toolingとの相性、security review、長期サポートはまだ確認が要る。次の焦点は、外部評価と開発者の実運用で同じ安定性が見えるかどうかだ。

Share: Long

Related Articles