Opperが53種類の主要LLMを対象に「カーウォッシュ」論理テストを実施。「洗車場が50メートル先にある。歩くべきか、運転すべきか?」というシンプルな問いに正解できたのはわずか11モデルだった。
#llm
Zhipu AIのGLM-5がExtended NYT Connectionsベンチマークで81.8点を記録し、Kimi K2.5 Thinking(78.3点)を抑えてオープン重みモデルの首位に立ちました。
Guide Labsが生成するすべてのトークンを入力コンテキスト、人間が理解できる概念、訓練データソースまで追跡できる初の「本質的に解釈可能な」言語モデルSteerling-8Bを公開しました。
スティーブン・ウルフラムがWolfram LanguageとAlphaをすべてのLLMが利用できる「基盤ツール」として正式提供すると発表しました。LLMの自然言語能力とWolframの精密計算能力を組み合わせる構想です。
OpenAI CEOのサム・オルトマンがAGI達成の新たな目標時期を設定し、2028年末までに「人類の知的能力の大半がデータセンター内に存在するようになる可能性がある」と主張しました。
AnthropicがDeepSeek、Moonshot AI(Kimi)、MiniMaxの3社が24,000件以上の不正Claudeアカウントを作成し、1,600万件の会話から訓練データを無断抽出(distillation)したと告発。AIの知的財産権争いが新たな局面を迎えました。
Anthropicが中国AI企業による2万4,000以上の不正アカウントを使った1,600万件のClaude会話データ抽出攻撃を告発しました。
スタートアップTaalasがLLMの重みとモデルアーキテクチャ全体をカスタムASICに直接焼き込み、ユーザーあたり毎秒17,000トークン以上、1ミリ秒未満の遅延を実現すると主張しています。Reddit r/singularityで814点を獲得しました。
DeepMindのCEOデミス・ハサビスは、真のAGIを判断するテストとして、1911年の知識のみで学習したAIが、1915年のアインシュタインのように一般相対性理論を独自に導出できるかどうかを提案した。これは単なるパターンマッチングではなく、真の科学的発見能力を測る基準だ。
アリババが3,970億パラメータのMoEアーキテクチャを採用したQwen3.5を公開。201言語に対応するオープンウェイトモデルで、GPT-5.2、Claude Opus 4.5、Gemini 3を上回るとベンチマークで主張。前世代比60%コスト削減、8倍の処理効率を実現。
あるユーザーがGemini 3.1 Proとの数時間の会話だけで完全にプレイ可能な宇宙探索ゲームを作成しました。パフォーマンス最適化、サウンドトラック生成、UIデザインをすべて自然言語の指示のみで実現し、最終的な成果物は約1,800行のHTMLコードで構成されました。
Anthropicは2月17日にClaude Sonnet 4.6をリリースし、Free・Proプランのデフォルトモデルに採用した。100万トークンのコンテキストウィンドウ(ベータ)を搭載し、Opus級の性能をSonnet価格で提供する。