GLM-5がExtended NYT Connectionsベンチマークでオープン重みモデル首位を獲得
Original: GLM-5 is the new top open-weights model on the Extended NYT Connections benchmark, with a score of 81.8, edging out Kimi K2.5 Thinking (78.3) View original →
GLM-5が首位を獲得
Zhipu AIのGLM-5がExtended NYT Connectionsベンチマークで81.8点を達成し、オープン重みの言語モデルの中で新たなトップパフォーマーとなりました。前のリーダーだったKimi K2.5 Thinkingの78.3点を上回り、3.5ポイントの差をつけました。
NYT Connectionsベンチマークとは
Extended NYT Connectionsベンチマークは、ニューヨーク・タイムズの単語連想パズルゲームをLLM評価に応用したものです。16個の単語を4つの隠れたカテゴリに分類する必要があり、これには統計的なパターンマッチングを超えた真の概念推論が求められます——多義語の理解、文化的参照、ラテラルシンキング、一見明らかでない意味的グループ化などです。
中国オープンソースAIの台頭
Zhipu AIは清華大学と密接に連携する北京のAIスタートアップで、General Language Model(GLM)シリーズで知られています。GLM-5の成果は中国のオープンソースAIの急速な進歩を示しており、特にメインの競合(Moonshot AIのKimi K2.5 Thinking)も中国のスタートアップであることを考えると注目に値します。
オープン重みの競争激化
この結果は、中国モデルがMetaのLlamaシリーズやMistralなど西側の競合に対してオープン重みスペースでますます競争力を持ち始めていることを示しています。詳細なベンチマーク結果はgithub.com/lechmazur/nyt-connectionsで確認できます。
Related Articles
議論の焦点は「encoder-free」が実際のモデル構造で何を意味するのかに集まった。
Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。
Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。