GLM-5がExtended NYT Connectionsベンチマークでオープン重みモデル首位を獲得

GLM-5が首位を獲得

Zhipu AIのGLM-5がExtended NYT Connectionsベンチマークで81.8点を達成し、オープン重みの言語モデルの中で新たなトップパフォーマーとなりました。前のリーダーだったKimi K2.5 Thinkingの78.3点を上回り、3.5ポイントの差をつけました。

NYT Connectionsベンチマークとは

Extended NYT Connectionsベンチマークは、ニューヨーク・タイムズの単語連想パズルゲームをLLM評価に応用したものです。16個の単語を4つの隠れたカテゴリに分類する必要があり、これには統計的なパターンマッチングを超えた真の概念推論が求められます——多義語の理解、文化的参照、ラテラルシンキング、一見明らかでない意味的グループ化などです。

中国オープンソースAIの台頭

Zhipu AIは清華大学と密接に連携する北京のAIスタートアップで、General Language Model（GLM）シリーズで知られています。GLM-5の成果は中国のオープンソースAIの急速な進歩を示しており、特にメインの競合（Moonshot AIのKimi K2.5 Thinking）も中国のスタートアップであることを考えると注目に値します。

オープン重みの競争激化

この結果は、中国モデルがMetaのLlamaシリーズやMistralなど西側の競合に対してオープン重みスペースでますます競争力を持ち始めていることを示しています。詳細なベンチマーク結果はgithub.com/lechmazur/nyt-connectionsで確認できます。

LLM Hacker News 2d ago 1 min read

DeepSeek V4でHN騒然、API docsより先に広がった重み公開

HNがDeepSeek V4に飛びついた理由はきれいな発表ページではなかった。表のリンクがAPI docsで、実際の重みとbaseモデルがすでにHugging Faceに並んでいたことが一気に火を付けた。

#deepseek #llm #moe

LLM Hacker News 5d ago 1 min read

Kimi K2.6でHNの論点はopen-weight coding agentの持久力へ

HNはKimi K2.6を、benchmark表よりも「open-weight coding agentが長い実務を耐えられるか」という問いで読んだ。12時間、13時間のcoding事例が注目を集める一方、速度、provider品質、benchmarkの現実味もすぐに問われた。

#kimi #coding-agents #open-weights

LLM sources.twitter 3d ago 1 min read

Qwen3.6-27B、397B級前世代をcoding指標で上回りApache 2.0 open weightで公開

重要なのは、open-weight 27B dense modelがはるかに大きいcoding systemとagent taskで正面比較されていることだ。Qwenのmodel cardではSWE-bench VerifiedがQwen3.6-27Bで77.2、Qwen3.5-397B-A17Bで76.2、licenseはApache 2.0となっている。

#qwen #open-weights #coding-models