GLM-5.2、open weightsの争点を順位からreasoning効率へ

GLM-5.2がArtificial Analysis Intelligence Index v4.1でopen weightsモデルの首位に立った。スコアは51で、MiniMax-M3、DeepSeek V4 Pro、Kimi K2.6を上回る。モデル規模はGLM-5.1と同じ744B total、40B active parametersだが、指標は11ポイント改善し、context windowは1M tokensに広がった。

重要なのは、単なる順位更新ではない。Artificial AnalysisはGLM-5.2をIntelligenceとCost per TaskのPareto frontier上に置いている。能力の割に作業単価が低いという評価だ。一方で、Intelligence Indexの1タスクあたりoutput tokensは約43kと多い。高いスコアの裏側に、長いreasoningと待ち時間という実運用上の論点がある。

Hacker Newsの議論もそこに集中した。あるコメントでは、Nimで小さな数式評価ライブラリを書かせたところ、GLM-5.2が最初のファイルを書く前に15分以上reasoningし、約45k tokensを使ったという体験が共有された。別のコメントは、MaxではなくHigh設定を使うと、多くのタスクで品質を大きく落とさずtoken使用量を減らせると指摘した。モデルが賢いかどうかより、その賢さをどの速度で使えるかが問われている。

ベンチマークの細部を見ると、注目された理由ははっきりしている。GLM-5.2はGDPval-AA v2でopen weights勢をリードし、scientific reasoningやTerminalBenchでも改善を示した。Z.aiのAPIに加え、複数のサードパーティproviderから使える点も広がりやすい。ただしmultimodal非対応、長い出力、providerごとの制限は、実際の採用で検証される。open weights競争は、性能、コスト、待ち時間を同時に見る段階へ進んでいる。

Source: Artificial Analysis, community discussion on Hacker News.

GLM-5.2、open weightsの争点を順位からreasoning効率へ

Related Articles

AI reasoningは正しい答えを出しても、理由まで正しいのか

Anthropic、オープン重み禁止よりチップ規制と安全テスト体制を求める姿勢と政策論点を読む今後の焦点

Kimi-K3がHugging Faceに登場、焦点は3T級モデルの運用コストへ

Related Articles

AI reasoningは正しい答えを出しても、理由まで正しいのか

Anthropic、オープン重み禁止よりチップ規制と安全テスト体制を求める姿勢と政策論点を読む今後の焦点

Kimi-K3がHugging Faceに登場、焦点は3T級モデルの運用コストへ