Google DeepMind, AGI 평가를 글로벌 Kaggle 챌린지로 확장
Original: Measuring progress toward AGI: A cognitive framework View original →
Google DeepMind는 2026년 3월 17일 X에서 Kaggle과 함께 AI용 새로운 cognitive evaluation을 만드는 글로벌 hackathon을 시작하며, 총상금 20만 달러를 내건다고 밝혔다. 이 게시물은 같은 날 공개된 Google DeepMind 블로그 글과 직접 연결되며, 해당 글은 AGI 진행 상황을 측정하기 위한 cognitive framework를 소개한다.
이 글에서 Google DeepMind는 AGI를 향한 진전을 하나의 benchmark나 leaderboard만으로 판단할 수 없다고 주장한다. 대신 attention, learning, memory, reasoning, executive functions, problem solving, social cognition 등을 포함한 10개의 cognitive ability taxonomy를 제시한다. 연구 목표는 개별 benchmark 승리를 일반 지능의 완전한 대리 지표로 보는 대신, 더 넓은 cognitive task 집합에서 model 성능을 human baseline과 비교하는 데 있다.
Kaggle 파트는 이 프레임워크를 실제 공개 competition으로 바꾸는 부분이다. Google DeepMind는 현재 측정 공백이 큰 다섯 영역, 즉 learning, metacognition, attention, executive functions, social cognition에 대한 evaluation을 community가 직접 설계하도록 hackathon을 열었다고 설명한다. 참가자는 Kaggle의 Community Benchmarks 플랫폼에서 frontier model을 상대로 제출물을 시험할 수 있으며, 접수 기간은 3월 17일부터 4월 16일까지이고 결과 발표는 6월 1일로 예정돼 있다.
따라서 이번 X 발표는 단순한 benchmark 이벤트 홍보를 넘어선다. 이는 AGI evaluation 설계의 일부를 더 넓은 연구자·builder community에 개방하면서, 무엇을 “general” intelligence라고 부를 것인지에 대한 더 명시적인 어휘를 만들려는 시도다. 이 framework가 실제 영향력을 가지는지는 결국 제출되는 task의 질에 달려 있겠지만, Google DeepMind가 model release 속도만큼 public evaluation design도 중요하다고 보고 있다는 점은 분명하다.
Related Articles
Google DeepMind가 2026년 3월 17일 AGI 진전을 평가하기 위한 cognitive framework를 공개했다. benchmark leaderboard 대신 인간 인지 능력 분해와 capability profile 비교로 논의를 옮기려는 시도다.
Google DeepMind는 2026년 3월 17일, AGI 진전을 평가하기 위한 새로운 cognitive science 기반 framework를 공개하고 이를 실제 benchmark로 바꾸기 위한 Kaggle hackathon을 시작했다고 밝혔다. 이 제안은 10개의 cognitive ability를 정의하고 human baseline과의 비교를 권장하며, community-built evaluation에 총 20만 달러 상금을 건다.
ARC-AGI-3 최신 벤치마크에서 GPT-5.5가 0.43%, Claude Opus 4.7이 0.18%를 기록하며 차세대 AGI 평가의 극단적 난이도를 재확인했다.
Comments (0)
No comments yet. Be the first to comment!