数学者たちがAIに挑戦状:「証明の過程を見せろ」
Original: Mathematicians Issue a Major Challenge to AI—Show Us Your Work View original →
挑戦の背景
主要な数学者たちが、AIが真に未解決の数学問題を解決できるかを検証するため、前例のない「First Proof」試験を出題した。これは、AI企業による検証されていない数学的ブレークスルーの主張に対する懸念から生まれた。
なぜ重要なのか
数学コミュニティは最近のAI成果に懐疑的である。MITのAndrew Sutherlandは「これらはどのLLMのトレーニングデータにも見つからない全く新しい問題だ」と述べた。これにより、AIが学習資料から既存の解答を単に検索することができないことを保証する。
過去のAI成果は疑問を呼んだ。あるスタートアップが大々的に宣伝した証明は、実際には文献検索結果を誤って表現したものだった。さらに、AI数学に関する論文の大部分がAIシステムを生産する企業自身から発表されており、独立した検証ではなく自己宣伝のように見えるという問題があった。
試験の構造
フィールズ賞受賞者を含む11人の数学専門家が、自身の研究から未解決問題を提供した。試験は「補題(lemmas)」に焦点を当てている。これは数学者がより大きな結果に向けて作業する際に証明する小さな定理で、AIの日常的な数学研究利用をより現実的に代表する。
重要なのは、暗号化された証明が事前に提出され、2月13日に復号化される予定であることだ。これにより、事後的に答えを捏造することができないことを保証する。参加するAIシステムには、これらの問題を解くために1週間の時間が与えられる。
将来の可能性
数学者たちは、ランドマーク的な未解決問題を解くことよりも、AIの短期的価値を退屈な研究コンポーネントを加速することと見ている。これは潜在的に、分野全体で数学研究をより効率的にすることができる。
Related Articles
OpenAIは汎用推論モデルがエルデシュの平面単位距離問題の予想上限を反証する構成を発見したと発表しました。数学者が証明を検証しましたが、ML研究者は手法の透明性に疑問を提起しています。
Google DeepMindのシエラレオネ実験では、問題への取り組み方を尋ねるGeminiクエリが68%から90%へ増えた。8週間、12校、1,763人を対象にしたRCTで、教育AIの評価軸が行動変化へ移っている。
Google DeepMindのAI数学研究エージェントAletheiaが、FirstProof Challengeで専門数学者が出題した研究レベルの数学問題10問中6問を自律的に解決しました。テレンス・タオらの数学者もその意義を認め、AIを価値ある研究協力者と評価しています。