GLM-5.2、1M contextをcoding agent競争の実戦指標へ
Original: GLM-5.2 View original →
長いcontextを持つだけでは、coding agentの価値は決まらない。Z.AIのGLM-5.2文書は、1M tokensを読めることよりも、大規模codebaseの設計制約、module境界、API contract、test方針を長い作業の後半まで保てるかを前面に出している。
公開日は2026年6月16日のrelease notesで確認できる。Z.AIはGLM-5.2について、1M lossless contextに対応し、複雑な作業でcontext driftとgoal forgettingを減らし、codingおよびlong-horizon task benchmarkでopen-source SOTAに達したと説明している。モデルページ上の最大出力は128K tokensだ。
Tier-1として扱う理由は、benchmarkの主張が具体的だからだ。Z.AIはFrontierSWE、PostTrainBench、SWE-MarathonでGLM-5.2が全体上位に入り、FrontierSWEではClaude Opus 4.8との差が1%にとどまると記載した。標準的なcoding benchmarkではTerminal-Bench 2.1が81.0、SWE-bench Proが62.1。GLM-5.1の62.0と58.4から大きく伸びた形になる。
意味合いは、open-source系モデルが低価格や自社運用だけでなく、repo-scale engineeringそのものを競争領域にしている点にある。企業の開発現場では、長い入力を受け付けるかより、途中で前提を忘れず、既存の設計判断に沿って変更を進められるかが重要になる。
ただし、数値はZ.AI文書に基づく。独立した再現、実コードベースでの失敗率、toolingとの相性、security review、長期サポートはまだ確認が要る。次の焦点は、外部評価と開発者の実運用で同じ安定性が見えるかどうかだ。
Related Articles
HNで刺さったのは、大きなcontext windowの広告値が実際の作業品質をそのまま保証しないという実務感覚だった。
エージェント型コーディングの恩恵はソフトウェア職だけに限られない。Anthropicは約40万セッションを分析し、平均タスク価値が27%上がり、非ソフトウェア職の成功率も7ポイント以内に収まったと示した。
Google DeepMindが26B MoE open modelのDiffusionGemmaを公開した。256-tokenブロックを並列に生成・修正するtext diffusion方式で、専用GPUでは最大4x高速な生成を狙う。