GLM 5.2、Vibe Code Bench 64%でオープンモデルの実用差を縮める新たな評価基準
Original: GLM 5.2 breaks 60% as open-weight coding gap narrows View original →
ウェブアプリをゼロから作れるかを測る評価で、GLM 5.2がオープンウェイトモデルとして初めて60%を超えた。Vals AIはXの投稿で「GLM 5.2 is the only open-weight model to break 60%」と述べ、Vibe Code Bench v1.1で64%を記録したと示した。
重要なのは差の大きさだ。同じ投稿によると、同ベンチマーク上の他のオープンウェイトモデルは50%に届いていない。GLM 5.2は次点のオープンモデルを14ポイント上回っており、単なる順位変動ではなく、実際のアプリ構築タスクでオープンモデルが閉鎖型のフロンティアモデルに近づいている可能性を示す。
Vals AIは公開LLM評価を掲げるアカウントで、モデル比較やベンチマーク結果を中心に発信している。今回の投稿はZ.aiによるGLM 5.2の発売情報そのものではなく、発売後の評価軸で同モデルがどこに位置するかを示す材料だ。GLM 5.2は1Mコンテキストや長期のコーディング作業を前面に出しており、Vibe Code Benchはその主張をウェブアプリ生成という具体的な作業に落とし込む。
次に見るべきなのは再現性である。64%という数字が、異なるプロンプト、アプリ種別、実行環境でも維持されるのか。さらに、配信コストやレイテンシ、既存ツールとの相性が企業利用で閉鎖型モデルの一部置き換えにつながるのかが焦点になる。
Related Articles
スコアだけでなく、長いreasoning tokenと待ち時間まで含めて評価する段階に入ったことが、今回の議論の焦点だ。
LocalLLaMAの議論は、巨大モデルへの憧れではなく、96-128GB級メモリを持つユーザーが使える新しい中間モデルの不足を指している。
LocalLLaMAはQwen3.6-27Bを単なるmodel cardではなく、すぐquantizeして手元で試せるownershipの話として受け止めた。