GoogleがGemini 3.1 Proをリリースし、ARC-AGI-2ベンチマークで77.1%を記録。前モデル比2倍以上の推論性能向上を実現し、Deep Thinkレベルの高度な推論機能をすべてのユーザーと開発者に提供開始した。
#benchmark
Qwen研究チームが発表した論文により、GPQAとHLE(Humanity's Last Exam)ベンチマークデータセットに深刻な品質問題が存在することが公式に確認されました。OCRエラー、誤った正解ラベル、検証不可能な問題が含まれており、現在のAIモデル評価の信頼性に疑問が呈されています。
Anthropicは2月17日にClaude Sonnet 4.6をリリースし、Free・Proプランのデフォルトモデルに採用した。100万トークンのコンテキストウィンドウ(ベータ)を搭載し、Opus級の性能をSonnet価格で提供する。
Google DeepMindがGemini 3.1 Proをリリースした。前世代比で推論性能が2倍以上向上し、ARC-AGI-2で77.1%、SWE-bench Verifiedで80.6%を達成。18のベンチマーク中12で首位を獲得しながらAPIの価格は$2/$12のまま据え置きとなった。
Claude Opus 4.6がMETRのソフトウェアタスクベンチマークで50%時間基準として約14.5時間を達成し、全ての予測を上回りました。AI能力の倍増時間が3ヶ月未満とされ、指数的成長が示されています。
Alibabaは2月16日にQwen 3.5をApache 2.0で公開した。3970億パラメータ(アクティブ170億)のスパースMoEアーキテクチャ、256Kコンテキスト、ネイティブマルチモーダル対応を備え、GPT-5.2と同等のベンチマーク性能を主張する。
AnthropicはClaude Sonnet 4.6を2月17日に公開した。コーディング、コンピュータ使用、エージェントプランニング全般でアップグレードされ、Free・Proプランの既定モデルとなった。
OpenAIはFirst Proof数学チャレンジに提出したモデル生成の証明案5件を公開した。採択された証明はなかったが、最先端LLMの推論限界を検証できる一次資料として重要性が高い。
Hacker Newsで注目されたSkillsBenchは、86タスク・11ドメインでAgent Skillの有効性を比較した。curated skillは平均通過率を押し上げた一方、モデルが自動生成したskillは平均的な改善を示さなかった。
LocalLLaMAで共有されたSWE-rebench 1月結果は、Claude Code先行を維持しつつ上位差の縮小とオープンモデル追い上げを示した。
AnthropicがClaude Opus 4.6を発表し、コーディング、長文コンテキスト理解、ナレッジワークで業界最高性能を達成しました。