Google DeepMindは2026年2月19日、Gemini 3.1 Proを発表した。ARC-AGI-2で77.1%のverified scoreを示し、開発者・企業・一般ユーザー向けに同時展開すると説明している。
#reasoning
RSS FeedLLM Feb 28, 2026 1 min read
LLM Hacker News Feb 24, 2026 1 min read
Opperが53種類の主要LLMを対象に「カーウォッシュ」論理テストを実施。「洗車場が50メートル先にある。歩くべきか、運転すべきか?」というシンプルな問いに正解できたのはわずか11モデルだった。
LLM Feb 23, 2026 1 min read
GoogleがGemini 3.1 Proをリリースし、ARC-AGI-2ベンチマークで77.1%を記録。前モデル比2倍以上の推論性能向上を実現し、Deep Thinkレベルの高度な推論機能をすべてのユーザーと開発者に提供開始した。
LLM X/Twitter Feb 22, 2026 1 min read
Google DeepMindがGemini 3.1 Proをリリースした。前世代比で推論性能が2倍以上向上し、ARC-AGI-2で77.1%、SWE-bench Verifiedで80.6%を達成。18のベンチマーク中12で首位を獲得しながらAPIの価格は$2/$12のまま据え置きとなった。
LLM Hacker News Feb 20, 2026 1 min read
Hacker Newsで大きく議論されたGemini 3.1 Pro。GoogleはARC-AGI-2で77.1%を示し、開発者・企業・一般ユーザー向けにPreview展開を同時進行している。
LLM Feb 16, 2026 1 min read
OpenAIは100万件超のChatGPT会話を分析し、2024年9月から2026年1月にかけて人間基準を上回る高難度reasoning対話の比率が約4倍になったと報告した。case interviewとmini crosswordのようなopen-ended課題でも改善が示された。
AI Hacker News Feb 12, 2026 1 min read
新しい研究で、OpenAIのGPT-5モデルが複雑な法的推論実験において連邦判事を上回る性能を示しました。