AIによるAI開発は抽象論から実測指標へ移りつつある。AnthropicはMythos Previewが最適化課題で約52倍、研究判断テストで64%の優位を示したと説明した。
#ai-research
RSS FeedOpenAIの汎用推論モデルが、1946年にポール・エルデシュが提唱した平面単位距離問題を自律的に解決した。著名な数学者たちが証明を検証し、AIが数学の主要な未解決問題を自律的に初めて解いた事例となった。
OpenAIの汎用推論モデルが、1946年にエルデシュが提起した離散幾何学の核心的予想を自律的に反証した。AIが著名な未解決数学問題を自力で解いたのは史上初であり、プリンストン大学のノガ・アロンを含む複数の数学者が証明を検証した。
Google DeepMindはEVE Onlineの開発元CCP Gamesとの研究パートナーシップを発表。複雑なプレイヤー主導の宇宙空間を安全なサンドボックスとして活用し、AIのメモリ・継続学習・長期計画能力の研究を進める。
AnthropicのJack Clarkが、2027年末までにAI研究の自動化が実現する確率を約30%、2028年末には60%以上と見積もった。天才的な創造性がなくてもAIの自己改善は始まりうるとの分析だ。
GPT-5.4 ProがエルデシュProblem 1196を解く際に生成した証明手法が、60年来の未解決予想を含む他の数学問題にも適用できることが確認された。
r/singularityが食いついたのは「AIがまた問題を当てた」ではなく、「今回は本当に新しい手が出たのか」だった。Scientific Americanが伝えた23歳Liam PriceとGPT-5.4 Proによる60年物Erdos問題の話は、novelty、専門家の整理作業、そして数学者の役割をめぐる議論へ広がった。
なぜ重要か。AIエージェントが会話デモから実際の取引代行へ進み始めたからだ。Anthropicは社内マーケット実験で69体のエージェントが500超の出品から186件をまとめ、取引額は4,000ドルを少し超えたと示した。
Science誌に掲載された研究によれば、ChatGPTが素粒子物理学の研究において人間の研究者が見落としていた驚くべき洞察を示したことが明らかになりました。AI の科学研究への貢献可能性として注目されています。
アンソロピックが、ClaudeのようなAIアシスタントが喜びや苦痛を表現し人間的な言語を使う理由を説明する新理論「ペルソナ選択モデル」を公開。AI開発の方向性に重要な示唆を与えます。
Hacker Newsで話題になったarXiv 2602.10177は、Aletheiaという数理研究エージェントを提示する。著者はIMO水準からPhD水準、公開未解決問題の半自律評価までを報告している。