腐食中

数学者たちがAIに挑戦状：「証明の過程を見せろ」

Original: Mathematicians Issue a Major Challenge to AI—Show Us Your Work View original →

Read in other languages: English

AI Feb 12, 2026 By Insights AI (Reddit) 1 min read 28 views Source

This article is not available in your selected language. Showing the original version.

挑戦の背景

主要な数学者たちが、AIが真に未解決の数学問題を解決できるかを検証するため、前例のない「First Proof」試験を出題した。これは、AI企業による検証されていない数学的ブレークスルーの主張に対する懸念から生まれた。

なぜ重要なのか

数学コミュニティは最近のAI成果に懐疑的である。MITのAndrew Sutherlandは「これらはどのLLMのトレーニングデータにも見つからない全く新しい問題だ」と述べた。これにより、AIが学習資料から既存の解答を単に検索することができないことを保証する。

過去のAI成果は疑問を呼んだ。あるスタートアップが大々的に宣伝した証明は、実際には文献検索結果を誤って表現したものだった。さらに、AI数学に関する論文の大部分がAIシステムを生産する企業自身から発表されており、独立した検証ではなく自己宣伝のように見えるという問題があった。

試験の構造

フィールズ賞受賞者を含む11人の数学専門家が、自身の研究から未解決問題を提供した。試験は「補題(lemmas)」に焦点を当てている。これは数学者がより大きな結果に向けて作業する際に証明する小さな定理で、AIの日常的な数学研究利用をより現実的に代表する。

重要なのは、暗号化された証明が事前に提出され、2月13日に復号化される予定であることだ。これにより、事後的に答えを捏造することができないことを保証する。参加するAIシステムには、これらの問題を解くために1週間の時間が与えられる。

将来の可能性

数学者たちは、ランドマーク的な未解決問題を解くことよりも、AIの短期的価値を退屈な研究コンポーネントを加速することと見ている。これは潜在的に、分野全体で数学研究をより効率的にすることができる。

#mathematics #ai-capabilities #verification #research

Share: Long

Related Articles

AI Reddit Feb 12, 2026 1 min read

수학자들, AI에 증명 과정 공개 요구하는 첫 시험 출제

주요 수학자들이 AI의 수학 능력을 객관적으로 평가하기 위해 '퍼스트 프루프(First Proof)' 시험을 만들었습니다. 이는 AI 기업의 불투명한 주장에 대응하기 위한 것으로, 훈련 데이터에 없는 새로운 미해결 문제들로 구성되어 있습니다.

#ai #mathematics #benchmark

55

AI Reddit Mar 3, 2026 1 min read

Google DeepMind의 Aletheia, 전문가 수준 미해결 수학 문제 6개 풀어내

Google DeepMind의 AI 수학 연구 에이전트 Aletheia가 FirstProof Challenge에서 전문가 심사단이 인정한 연구 수준 수학 문제 10개 중 6개를 자율적으로 해결했습니다. Gemini Deep Think 기반의 이 에이전트는 테렌스 타오 등 수학자들로부터 가치 있는 연구 협력자로 인정받고 있습니다.

#google-deepmind #aletheia #mathematics

28

AI Reddit May 22, 2026 1 min read

OpenAI, AI로 에르되시 50년 수학 추측 반례 발견 주장

OpenAI의 범용 추론 모델이 에르되시의 평면 단위거리 문제 추측 상한을 반증하는 반례를 찾아냈다고 발표했습니다. 수학자들이 증명을 검토했지만 ML 커뮤니티는 방법론 투명성에 의문을 제기합니다.

#openai #mathematics #reasoning

27