GLM-5がExtended NYT Connectionsベンチマークでオープン重みモデル首位を獲得
Original: GLM-5 is the new top open-weights model on the Extended NYT Connections benchmark, with a score of 81.8, edging out Kimi K2.5 Thinking (78.3) View original →
GLM-5が首位を獲得
Zhipu AIのGLM-5がExtended NYT Connectionsベンチマークで81.8点を達成し、オープン重みの言語モデルの中で新たなトップパフォーマーとなりました。前のリーダーだったKimi K2.5 Thinkingの78.3点を上回り、3.5ポイントの差をつけました。
NYT Connectionsベンチマークとは
Extended NYT Connectionsベンチマークは、ニューヨーク・タイムズの単語連想パズルゲームをLLM評価に応用したものです。16個の単語を4つの隠れたカテゴリに分類する必要があり、これには統計的なパターンマッチングを超えた真の概念推論が求められます——多義語の理解、文化的参照、ラテラルシンキング、一見明らかでない意味的グループ化などです。
中国オープンソースAIの台頭
Zhipu AIは清華大学と密接に連携する北京のAIスタートアップで、General Language Model(GLM)シリーズで知られています。GLM-5の成果は中国のオープンソースAIの急速な進歩を示しており、特にメインの競合(Moonshot AIのKimi K2.5 Thinking)も中国のスタートアップであることを考えると注目に値します。
オープン重みの競争激化
この結果は、中国モデルがMetaのLlamaシリーズやMistralなど西側の競合に対してオープン重みスペースでますます競争力を持ち始めていることを示しています。詳細なベンチマーク結果はgithub.com/lechmazur/nyt-connectionsで確認できます。
Related Articles
Google AI DevelopersがAndroid開発向けLLM評価基盤のAndroid Benchを公開した。初回結果ではGemini 3.1 Proが首位となり、benchmark、dataset、test harnessも公開された。
Hacker Newsで注目された「Agentic Engineering Patterns」は、コーディングエージェントを実務に組み込むための原則とQA手順を体系化したガイド。単発のプロンプト技ではなく、再現性のある開発プロセスに焦点を当てる。
Microsoft Researchは2026年2月26日にCORPGENを発表した。実際のオフィス業務を模した高負荷マルチタスク条件で、ベースライン比最大3.5倍の完了率を報告している。
Comments (0)
No comments yet. Be the first to comment!