GLM 5.2、SemgrepのセキュリティbenchmarkでClaude Codeを上回る
Original: GLM 5.2 beats Claude in our benchmarks View original →
SemgrepのIDOR検出benchmarkで、Zhipu AIのGLM 5.2がClaude Codeを上回った。同じデータセットとpromptのみの条件で、GLM 5.2はF1 39%を記録し、Claude Codeは32%だった。Semgrepは、GLM 5.2のコストを脆弱性1件あたり約0.17ドルとも説明している。
ただし、これはオープンモデルがアプリケーションセキュリティを解決したという話ではない。Semgrepのmultimodal pipelineは53-61% F1で、まだ明確に高い。そこには、モデル推論だけでなく静的解析、ruleベースの信号、triageの流れを組み合わせた差がある。
重要なのは、難しい領域でオープンweightモデルの上限が動いたことだ。セキュリティバグ検出にはrepository context、制御フローの理解、誤検知を抑える判断が必要になる。promptだけの条件でGLM 5.2がここまで届いたなら、社内コードレビューや一次triageで試す理由は増える。
HNの議論も、単なる順位表から実運用へ移った。日常のcoding作業に使えるという声がある一方、753B級モデルをどのhardwareで動かすのかという疑問も出た。GLM 5.2は専用のセキュリティシステムを置き換えたわけではないが、オープンweightモデルを候補から外しにくくした。
Related Articles
Snyk VulnBench JS 1.0は、同じJavaScript脆弱性レビューを300回繰り返し、LLMの検出結果がどれだけ再現するかを測った。最良のLLM設定はSnyk-reference F1 75.4%で、unmatched findingの49.7%は5回中1回だけ出現した。
HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。
約300ポイントを集めたHNの議論は、secretが漏れなかった事実よりも実験条件が現実のリスクをどこまで表すかに向かった。