数学者たちがAIに挑戦状:「証明の過程を見せろ」
Original: Mathematicians Issue a Major Challenge to AI—Show Us Your Work View original →
挑戦の背景
主要な数学者たちが、AIが真に未解決の数学問題を解決できるかを検証するため、前例のない「First Proof」試験を出題した。これは、AI企業による検証されていない数学的ブレークスルーの主張に対する懸念から生まれた。
なぜ重要なのか
数学コミュニティは最近のAI成果に懐疑的である。MITのAndrew Sutherlandは「これらはどのLLMのトレーニングデータにも見つからない全く新しい問題だ」と述べた。これにより、AIが学習資料から既存の解答を単に検索することができないことを保証する。
過去のAI成果は疑問を呼んだ。あるスタートアップが大々的に宣伝した証明は、実際には文献検索結果を誤って表現したものだった。さらに、AI数学に関する論文の大部分がAIシステムを生産する企業自身から発表されており、独立した検証ではなく自己宣伝のように見えるという問題があった。
試験の構造
フィールズ賞受賞者を含む11人の数学専門家が、自身の研究から未解決問題を提供した。試験は「補題(lemmas)」に焦点を当てている。これは数学者がより大きな結果に向けて作業する際に証明する小さな定理で、AIの日常的な数学研究利用をより現実的に代表する。
重要なのは、暗号化された証明が事前に提出され、2月13日に復号化される予定であることだ。これにより、事後的に答えを捏造することができないことを保証する。参加するAIシステムには、これらの問題を解くために1週間の時間が与えられる。
将来の可能性
数学者たちは、ランドマーク的な未解決問題を解くことよりも、AIの短期的価値を退屈な研究コンポーネントを加速することと見ている。これは潜在的に、分野全体で数学研究をより効率的にすることができる。
Related Articles
重要なのは、AIによるlabor riskが抽象的な予測からuser responseに基づく測定へ移っている点だ。Anthropicは81,000件の回答を分析し、高exposure職種ではjob displacementへの言及が約3倍多いと示した。
r/MachineLearningはこの投稿を別のAGI宣言としては扱わなかった。コメント欄の空気は驚きよりセミナーに近く、learning mechanicsが本当に研究計画になるかへ関心が集まった。
Perplexityは2026年3月31日、leading-edge AI systemのsecurity、trustworthiness、practical defenseを研究するSecure Intelligence Instituteを立ち上げると発表した。Instituteページは、数百万ユーザーと数千enterpriseを支える運用経験を基盤に、PurdueのNinghui Li教授が率い、BrowseSafeやNIST関連のAI agent security論文を初期成果として示している。
Comments (0)
No comments yet. Be the first to comment!