GLM-5.2、open weightsの争点を順位からreasoning効率へ
Original: GLM-5.2 is the new leading open weights model on Artificial Analysis View original →
GLM-5.2がArtificial Analysis Intelligence Index v4.1でopen weightsモデルの首位に立った。スコアは51で、MiniMax-M3、DeepSeek V4 Pro、Kimi K2.6を上回る。モデル規模はGLM-5.1と同じ744B total、40B active parametersだが、指標は11ポイント改善し、context windowは1M tokensに広がった。
重要なのは、単なる順位更新ではない。Artificial AnalysisはGLM-5.2をIntelligenceとCost per TaskのPareto frontier上に置いている。能力の割に作業単価が低いという評価だ。一方で、Intelligence Indexの1タスクあたりoutput tokensは約43kと多い。高いスコアの裏側に、長いreasoningと待ち時間という実運用上の論点がある。
Hacker Newsの議論もそこに集中した。あるコメントでは、Nimで小さな数式評価ライブラリを書かせたところ、GLM-5.2が最初のファイルを書く前に15分以上reasoningし、約45k tokensを使ったという体験が共有された。別のコメントは、MaxではなくHigh設定を使うと、多くのタスクで品質を大きく落とさずtoken使用量を減らせると指摘した。モデルが賢いかどうかより、その賢さをどの速度で使えるかが問われている。
ベンチマークの細部を見ると、注目された理由ははっきりしている。GLM-5.2はGDPval-AA v2でopen weights勢をリードし、scientific reasoningやTerminalBenchでも改善を示した。Z.aiのAPIに加え、複数のサードパーティproviderから使える点も広がりやすい。ただしmultimodal非対応、長い出力、providerごとの制限は、実際の採用で検証される。open weights競争は、性能、コスト、待ち時間を同時に見る段階へ進んでいる。
Source: Artificial Analysis, community discussion on Hacker News.
Related Articles
r/MachineLearningで注目されたのは、閉じたモデルの評価結果をleaderboardにどう混ぜるかという現実的な問題だった。
MiniMax M3はベンチマーク投稿からオープンウェイト配布へ進んだ。モデルカードは約428Bパラメータ、23B有効パラメータ、1Mトークン文脈を示している。
OpenRouterはFusion APIがDRACOの100件の深層研究タスクでClaude Fable 5に1%以内まで迫ったと説明した。複数モデル、judge model、synthesizerを組み合わせ、費用をおよそ半分に抑える点が焦点だ。