Google DeepMind, AGI 진척 측정용 cognitive framework 공개
Original: Measuring progress toward AGI: A cognitive framework View original →
Google DeepMind는 AGI 논의를 조금 더 측정 가능한 형태로 바꾸려 하고 있다. 회사는 2026년 3월 17일 공개한 논문과 blog post에서 artificial general intelligence 진척을 추적하기 위한 cognitive framework를 제안했다. 핵심은 특정 model이 추상적인 임계선을 넘었는지 묻는 대신, 서로 다른 cognitive ability를 분해해 평가하고 그 성능을 human baseline과 비교할 수 있는 구조를 만들자는 것이다.
이 taxonomy는 psychology, neuroscience, cognitive science의 연구를 바탕으로 만들어졌다. DeepMind는 general intelligence에 중요할 것으로 보는 10개 능력으로 perception, generation, attention, learning, memory, reasoning, metacognition, executive functions, problem solving, social cognition을 제시했다. 목표는 benchmark를 하나 더 추가하는 것이 아니라, model이 무엇을 할 수 있고 무엇을 아직 못하는지 더 정교하게 설명할 언어를 만드는 데 있다.
DeepMind가 제안한 3단계 평가 방식
- data contamination 위험을 줄이기 위해 held-out test set으로 다양한 cognitive task를 평가한다.
- 같은 task에 대해 인구통계적으로 대표성 있는 성인 sample에서 human baseline을 수집한다.
- 각 ability마다 AI system의 성능을 human performance 분포와 비교해 위치를 매긴다.
DeepMind는 이 framework를 이론에만 남겨두지 않으려 한다. 논문과 함께 Kaggle hackathon도 열었는데, evaluation gap이 가장 크다고 본 learning, metacognition, attention, executive functions, social cognition 다섯 영역을 집중 대상으로 삼았다. 참가자들은 Kaggle Community Benchmarks 플랫폼 위에서 평가 문제를 설계할 수 있고, 총 상금은 $200,000이다. 접수 기간은 March 17부터 April 16까지이며, 결과 발표는 June 1로 예정돼 있다.
이 발표에는 분명한 전략적 의미도 있다. frontier AI lab들은 increasingly AGI를 언급하고 있지만, 이 용어는 여전히 느슨하고 정치적으로도 민감하다. DeepMind는 cognitive science와 human-relative measurement를 기반으로 논의를 재구성함으로써, 앞으로 등장할 AGI claim을 조금 더 검증 가능한 틀 안에 넣으려 하고 있다. 모든 측정 문제를 해결해주지는 않겠지만, 적어도 막연한 수사에서 재현 가능한 evaluation design으로 대화를 옮기려는 시도다.
이 framework가 널리 채택될지는 결국 실제 task가 얼마나 유용하게 만들어지는지, 그리고 다른 lab들도 이 taxonomy를 충분히 중립적인 틀로 받아들이는지에 달려 있다. 그럼에도 이번 공개는 개념적 모델, 구체적 protocol, 그리고 외부 연구자가 빈 benchmark를 메울 유인을 한 번에 묶었다는 점에서 중요하다. 지금의 AI 경쟁에서는 더 좋은 model만큼 더 좋은 measurement도 핵심 경쟁력이 될 수 있다. 원문: Google DeepMind.
Related Articles
Hacker News에서 화제가 된 llm-circuit-finder는 training 없이 layer routing만으로 reasoning score를 끌어올릴 수 있다고 주장한다. 하지만 README의 전체 benchmark는 IFEval/MBPP와 평균 점수 하락도 보여 주며, 이 접근은 universal improvement보다 capability steering으로 보는 편이 더 타당하다.
Hacker News에서 주목받은 Skylar Payne의 글은 AI 시스템이 커질수록 팀들이 DSPy의 핵심 패턴을 다시 구현하게 된다고 주장한다. 동시에 HN 토론에서는 Python 중심성, prompt optimization의 위치, evals 설계 비용이 adoption을 늦추는 현실적 이유로 함께 지적됐다.
r/LocalLLaMA의 rerun benchmark는 Apple M5 Max가 token generation보다 prompt processing에서 더 큰 이득을 보인다고 주장한다. 특히 Qwen 3.5 35B-A3B MoE는 2,845 tok/s PP512와 92.2 tok/s generation을 기록했다고 post author가 설명한다.
Comments (0)
No comments yet. Be the first to comment!