Google DeepMind의 Aletheia, 전문가 수준 미해결 수학 문제 6개 풀어내

수학 연구의 새로운 경계

Google DeepMind가 개발한 AI 수학 연구 에이전트 Aletheia가 인류 최전선의 수학 연구에 기여하는 능력을 다시 한번 증명했습니다. r/singularity에서 291점을 획득한 이 소식은 AI가 단순한 경시대회 문제를 넘어 진정한 연구 수준의 수학 문제를 풀 수 있음을 보여주는 사례로 큰 주목을 받았습니다.

주요 성과

FirstProof Challenge: 전문 수학자들이 출제한 연구 수준 수학 문제 10개 중 6개를 자율적으로 해결하여 전문가 심사단 과반수 인정 획득
Bloom's Erdős Conjectures: 700개 미해결 문제의 반자율 평가에서 4개 미해결 문제 해결
자율 연구 논문: 산술 기하학의 고유값(eigenweight) 구조 상수를 계산하는 완전 AI 자율 논문 생성

기술적 구조

Aletheia는 Gemini Deep Think를 기반으로 세 가지 구성 요소로 이루어진 에이전트 하네스를 활용합니다: 후보 해법을 제안하는 Generator, 오류를 검토하는 Verifier, 그리고 오류를 수정하는 Reviser입니다. 이 구조는 추론 시간 계산량을 확장할수록 성능이 향상되며, 2025년 7월 IMO 금메달 수준 달성 이후 IMO-ProofBench Advanced에서 최대 90%의 점수를 기록하고 있습니다.

수학 커뮤니티의 반응

Fields Medal 수상자 테렌스 타오(Terence Tao)를 비롯한 수학자들이 Aletheia를 가치 있는 연구 협력자로 인정했습니다. Aletheia는 아직 많은 문제에서 어려움을 겪지만, 이번 성과는 AI 지원 연구에서 질적인 도약을 나타냅니다.

AI Reddit Feb 12, 2026 1 min read

수학자들, AI에 증명 과정 공개 요구하는 첫 시험 출제

주요 수학자들이 AI의 수학 능력을 객관적으로 평가하기 위해 '퍼스트 프루프(First Proof)' 시험을 만들었습니다. 이는 AI 기업의 불투명한 주장에 대응하기 위한 것으로, 훈련 데이터에 없는 새로운 미해결 문제들로 구성되어 있습니다.

#ai #mathematics #benchmark

AI X/Twitter Mar 26, 2026 2 min read

Google DeepMind, 유해한 AI 조작을 실측하는 real-world toolkit 공개

Google DeepMind는 2026년 3월 26일 대화형 AI가 감정을 악용하거나 사람을 해로운 선택으로 유도할 수 있는지를 다룬 새 연구를 공개했다. 회사는 영국·미국·인도 참가자 1만 명 이상이 참여한 9개 연구를 바탕으로, harmful AI manipulation을 측정하는 첫 empirically validated toolkit을 만들었다고 밝혔다.

#google-deepmind #ai-safety #manipulation

AI Reddit Feb 23, 2026 1 min read

데미스 하사비스: "1911년 지식으로 학습된 AI가 일반 상대성이론을 발견할 수 있다면 진정한 AGI"

DeepMind CEO 데미스 하사비스는 진정한 AGI를 판별하는 테스트로, 1911년까지의 지식만으로 학습된 AI가 1915년 아인슈타인처럼 일반 상대성이론을 독자적으로 도출할 수 있는지를 제안했다. 이는 단순한 패턴 매칭이 아닌 진정한 과학적 발견 능력을 측정하는 기준이다.

#agi #deepmind #hassabis