GLM 5.2、SemgrepのセキュリティbenchmarkでClaude Codeを上回る

SemgrepのIDOR検出benchmarkで、Zhipu AIのGLM 5.2がClaude Codeを上回った。同じデータセットとpromptのみの条件で、GLM 5.2はF1 39%を記録し、Claude Codeは32%だった。Semgrepは、GLM 5.2のコストを脆弱性1件あたり約0.17ドルとも説明している。

ただし、これはオープンモデルがアプリケーションセキュリティを解決したという話ではない。Semgrepのmultimodal pipelineは53-61% F1で、まだ明確に高い。そこには、モデル推論だけでなく静的解析、ruleベースの信号、triageの流れを組み合わせた差がある。

重要なのは、難しい領域でオープンweightモデルの上限が動いたことだ。セキュリティバグ検出にはrepository context、制御フローの理解、誤検知を抑える判断が必要になる。promptだけの条件でGLM 5.2がここまで届いたなら、社内コードレビューや一次triageで試す理由は増える。

HNの議論も、単なる順位表から実運用へ移った。日常のcoding作業に使えるという声がある一方、753B級モデルをどのhardwareで動かすのかという疑問も出た。GLM 5.2は専用のセキュリティシステムを置き換えたわけではないが、オープンweightモデルを候補から外しにくくした。