数学者たちがAIに挑戦状:「証明の過程を見せろ」
Original: Mathematicians Issue a Major Challenge to AI—Show Us Your Work View original →
挑戦の背景
主要な数学者たちが、AIが真に未解決の数学問題を解決できるかを検証するため、前例のない「First Proof」試験を出題した。これは、AI企業による検証されていない数学的ブレークスルーの主張に対する懸念から生まれた。
なぜ重要なのか
数学コミュニティは最近のAI成果に懐疑的である。MITのAndrew Sutherlandは「これらはどのLLMのトレーニングデータにも見つからない全く新しい問題だ」と述べた。これにより、AIが学習資料から既存の解答を単に検索することができないことを保証する。
過去のAI成果は疑問を呼んだ。あるスタートアップが大々的に宣伝した証明は、実際には文献検索結果を誤って表現したものだった。さらに、AI数学に関する論文の大部分がAIシステムを生産する企業自身から発表されており、独立した検証ではなく自己宣伝のように見えるという問題があった。
試験の構造
フィールズ賞受賞者を含む11人の数学専門家が、自身の研究から未解決問題を提供した。試験は「補題(lemmas)」に焦点を当てている。これは数学者がより大きな結果に向けて作業する際に証明する小さな定理で、AIの日常的な数学研究利用をより現実的に代表する。
重要なのは、暗号化された証明が事前に提出され、2月13日に復号化される予定であることだ。これにより、事後的に答えを捏造することができないことを保証する。参加するAIシステムには、これらの問題を解くために1週間の時間が与えられる。
将来の可能性
数学者たちは、ランドマーク的な未解決問題を解くことよりも、AIの短期的価値を退屈な研究コンポーネントを加速することと見ている。これは潜在的に、分野全体で数学研究をより効率的にすることができる。
Related Articles
r/MachineLearningで共有された新しいarXiv論文は、非公式のmodel access providerが研究結果と運用上の信頼性の両方を揺るがすと指摘している。
Anthropicは、Claude Opus 4.6がMozillaとの2週間の協業でFirefox脆弱性22件を発見したと発表した。Mozillaはそのうち14件をhigh severityと分類し、Firefox 148.0で修正を配布した。
Googleは3月 5日、Google AI Center Berlinを開設し、Google DeepMind、Google Research、Google Cloudのteamsと研究者、企業、policy leadersを結ぶhubとして運営すると説明した。あわせてTUMとHelmholtz Munichとの長期research partnershipも発表した。
Comments (0)
No comments yet. Be the first to comment!