数学者たちがAIに挑戦状：「証明の過程を見せろ」

挑戦の背景

主要な数学者たちが、AIが真に未解決の数学問題を解決できるかを検証するため、前例のない「First Proof」試験を出題した。これは、AI企業による検証されていない数学的ブレークスルーの主張に対する懸念から生まれた。

数学コミュニティは最近のAI成果に懐疑的である。MITのAndrew Sutherlandは「これらはどのLLMのトレーニングデータにも見つからない全く新しい問題だ」と述べた。これにより、AIが学習資料から既存の解答を単に検索することができないことを保証する。

過去のAI成果は疑問を呼んだ。あるスタートアップが大々的に宣伝した証明は、実際には文献検索結果を誤って表現したものだった。さらに、AI数学に関する論文の大部分がAIシステムを生産する企業自身から発表されており、独立した検証ではなく自己宣伝のように見えるという問題があった。

フィールズ賞受賞者を含む11人の数学専門家が、自身の研究から未解決問題を提供した。試験は「補題(lemmas)」に焦点を当てている。これは数学者がより大きな結果に向けて作業する際に証明する小さな定理で、AIの日常的な数学研究利用をより現実的に代表する。

重要なのは、暗号化された証明が事前に提出され、2月13日に復号化される予定であることだ。これにより、事後的に答えを捏造することができないことを保証する。参加するAIシステムには、これらの問題を解くために1週間の時間が与えられる。

数学者たちは、ランドマーク的な未解決問題を解くことよりも、AIの短期的価値を退屈な研究コンポーネントを加速することと見ている。これは潜在的に、分野全体で数学研究をより効率的にすることができる。