GLM-5がExtended NYT Connectionsベンチマークでオープン重みモデル首位を獲得
Original: GLM-5 is the new top open-weights model on the Extended NYT Connections benchmark, with a score of 81.8, edging out Kimi K2.5 Thinking (78.3) View original →
GLM-5が首位を獲得
Zhipu AIのGLM-5がExtended NYT Connectionsベンチマークで81.8点を達成し、オープン重みの言語モデルの中で新たなトップパフォーマーとなりました。前のリーダーだったKimi K2.5 Thinkingの78.3点を上回り、3.5ポイントの差をつけました。
NYT Connectionsベンチマークとは
Extended NYT Connectionsベンチマークは、ニューヨーク・タイムズの単語連想パズルゲームをLLM評価に応用したものです。16個の単語を4つの隠れたカテゴリに分類する必要があり、これには統計的なパターンマッチングを超えた真の概念推論が求められます——多義語の理解、文化的参照、ラテラルシンキング、一見明らかでない意味的グループ化などです。
中国オープンソースAIの台頭
Zhipu AIは清華大学と密接に連携する北京のAIスタートアップで、General Language Model(GLM)シリーズで知られています。GLM-5の成果は中国のオープンソースAIの急速な進歩を示しており、特にメインの競合(Moonshot AIのKimi K2.5 Thinking)も中国のスタートアップであることを考えると注目に値します。
オープン重みの競争激化
この結果は、中国モデルがMetaのLlamaシリーズやMistralなど西側の競合に対してオープン重みスペースでますます競争力を持ち始めていることを示しています。詳細なベンチマーク結果はgithub.com/lechmazur/nyt-connectionsで確認できます。
Related Articles
HNがDeepSeek V4に飛びついた理由はきれいな発表ページではなかった。表のリンクがAPI docsで、実際の重みとbaseモデルがすでにHugging Faceに並んでいたことが一気に火を付けた。
HNはKimi K2.6を、benchmark表よりも「open-weight coding agentが長い実務を耐えられるか」という問いで読んだ。12時間、13時間のcoding事例が注目を集める一方、速度、provider品質、benchmarkの現実味もすぐに問われた。
重要なのは、open-weight 27B dense modelがはるかに大きいcoding systemとagent taskで正面比較されていることだ。Qwenのmodel cardではSWE-bench VerifiedがQwen3.6-27Bで77.2、Qwen3.5-397B-A17Bで76.2、licenseはApache 2.0となっている。
Comments (0)
No comments yet. Be the first to comment!