GLM-5がExtended NYT Connectionsベンチマークでオープン重みモデル首位を獲得

GLM-5が首位を獲得

Zhipu AIのGLM-5がExtended NYT Connectionsベンチマークで81.8点を達成し、オープン重みの言語モデルの中で新たなトップパフォーマーとなりました。前のリーダーだったKimi K2.5 Thinkingの78.3点を上回り、3.5ポイントの差をつけました。

NYT Connectionsベンチマークとは

Extended NYT Connectionsベンチマークは、ニューヨーク・タイムズの単語連想パズルゲームをLLM評価に応用したものです。16個の単語を4つの隠れたカテゴリに分類する必要があり、これには統計的なパターンマッチングを超えた真の概念推論が求められます——多義語の理解、文化的参照、ラテラルシンキング、一見明らかでない意味的グループ化などです。

中国オープンソースAIの台頭

Zhipu AIは清華大学と密接に連携する北京のAIスタートアップで、General Language Model（GLM）シリーズで知られています。GLM-5の成果は中国のオープンソースAIの急速な進歩を示しており、特にメインの競合（Moonshot AIのKimi K2.5 Thinking）も中国のスタートアップであることを考えると注目に値します。