Google DeepMind, AGI 진전을 재는 cognitive framework 제안

Original: Measuring progress toward AGI: A cognitive framework View original →

Read in other languages: English日本語
AI Mar 19, 2026 By Insights AI 1 min read Source

Google DeepMind는 2026년 3월 17일, AGI 진전을 어떻게 측정할지에 대한 새 논문을 공개하며 현재의 AGI 논의에는 견고한 empirical framework가 부족하다고 주장했다. 이 발표는 AGI가 임박했다거나 특정 benchmark 하나로 결론을 낼 수 있다고 말하지 않는다. 대신 cognitive science를 바탕으로 AI 시스템의 능력을 더 체계적으로 설명하고 비교하는 평가 층을 만들자는 제안이다. DeepMind는 이를 frontier model의 성능 주장과 실제 일반지능 평가 사이를 연결하는 측정 인프라의 문제로 보고 있다.

논문은 일반지능에 중요하다고 보는 10개의 cognitive ability를 제시한다. perception, generation, attention, learning, memory, reasoning, metacognition, executive functions, problem solving, social cognition이 그것이다. 이어서 세 단계 평가 프로토콜을 제안한다. 첫째, 각 능력을 포괄하는 폭넓은 과제로 AI 시스템을 평가하고 held-out set으로 contamination을 줄인다. 둘째, 동일 과제에 대해 인구통계적으로 대표성이 있는 성인 표본의 human baseline을 수집한다. 셋째, 모델 점수를 단순 raw score가 아니라 인간 수행 분포와의 상대적 위치로 해석한다.

이 아이디어를 실제 benchmark로 옮기기 위해 DeepMind는 Kaggle과 함께 hackathon도 시작했다. 평가 공백이 가장 큰 다섯 영역인 learning, metacognition, attention, executive functions, social cognition을 중심으로 community가 새로운 평가를 설계하도록 유도하는 방식이다. 참가자는 Kaggle Community Benchmarks 플랫폼에서 evaluation을 만들고 frontier model lineup을 상대로 시험할 수 있다. Google은 총상금이 20만 달러이며, 접수는 3월 17일부터 4월 16일까지, 결과 발표는 6월 1일이라고 밝혔다.

왜 중요한가

  • benchmark 설계는 이제 lab, investor, regulator가 frontier model 진전을 해석하는 기준 자체가 되고 있다.
  • DeepMind는 단일 점수 leaderboard보다 human-relative measurement를 밀고 있다.
  • Kaggle hackathon을 통해 추상적 framework를 community 기반 evaluation 구축으로 연결했다.

이번 발표는 AGI가 이미 달성됐다고 주장하지 않는다. 오히려 대형 연구소 하나가 향후 진전 주장과 benchmark 해석이 어떤 방식으로 이뤄져야 하는지 표준화하려는 시도로 읽힌다. 이 framework가 채택되면 차세대 모델 비교 방식, capability gap 논의, AGI를 둘러싼 대중 담론 자체가 더 evidence-driven하게 바뀔 가능성이 있다.

Share: Long

Related Articles

AI sources.twitter 1d ago 1 min read

Google DeepMind는 X에서 20만 달러 상금 규모의 Kaggle hackathon을 열어 AI용 새로운 cognitive evaluation을 만들겠다고 밝혔다. 연결된 Google 글은 이 노력이 단일 benchmark가 아니라 10개의 cognitive ability 전반에서 AGI 진행 상황을 측정하려는 더 큰 프레임워크의 일부라고 설명한다.

AI Reddit Mar 3, 2026 1 min read

Google DeepMind의 AI 수학 연구 에이전트 Aletheia가 FirstProof Challenge에서 전문가 심사단이 인정한 연구 수준 수학 문제 10개 중 6개를 자율적으로 해결했습니다. Gemini Deep Think 기반의 이 에이전트는 테렌스 타오 등 수학자들로부터 가치 있는 연구 협력자로 인정받고 있습니다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.