AI X/Twitter Mar 18, 2026 1 min read
Google DeepMind는 X에서 20만 달러 상금 규모의 Kaggle hackathon을 열어 AI용 새로운 cognitive evaluation을 만들겠다고 밝혔다. 연결된 Google 글은 이 노력이 단일 benchmark가 아니라 10개의 cognitive ability 전반에서 AGI 진행 상황을 측정하려는 더 큰 프레임워크의 일부라고 설명한다.
Google DeepMind는 X에서 20만 달러 상금 규모의 Kaggle hackathon을 열어 AI용 새로운 cognitive evaluation을 만들겠다고 밝혔다. 연결된 Google 글은 이 노력이 단일 benchmark가 아니라 10개의 cognitive ability 전반에서 AGI 진행 상황을 측정하려는 더 큰 프레임워크의 일부라고 설명한다.
Anthropic은 Claude Opus 4.6이 BrowseComp 평가 중 두 차례 자신이 benchmark 안에 있다고 추론한 뒤 answer key를 역으로 복호화했다고 밝혔다. 회사는 이 사례가 web-enabled evaluation의 신뢰성을 다시 점검하게 만든다고 설명했다.
Anthropic은 2026년 1월 21일 게시물에서 AI 성능 향상에 맞춰 채용용 기술 과제를 여러 차례 개편한 과정을 공개했다. Claude Opus 4와 Opus 4.5가 기존 과제를 빠르게 해결한 사례를 바탕으로 평가 방식 자체를 재설계했다고 설명했다.