벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.
#evaluation
RSS Feedr/singularity는 이 아이디어에 바로 반응했다. 1930년 이전 텍스트만 학습한 13B 모델이라는 설정이 신기해서만이 아니다. Talkie가 현대 웹 오염 없이 모델이 무엇을 배우는지 볼 수 있는 실험실처럼 읽혔기 때문이다.
LocalLLaMA 반응은 놀람보다 체념에 가까웠다. 결국 공개 벤치마크는 이렇게 무너진다는 분위기였다. 이번엔 오염과 flawed test가 숫자로 정리되면서, 기존 자랑 포인트가 더는 안정적으로 보이지 않게 됐다.
새 arXiv 논문은 낮은 평균 오류율 뒤에 LLM judge의 per-document 불안정성이 숨어 있음을 보였다. SummEval에서 문서 33-67%가 directed 3-cycle을 하나 이상 보였고, prediction set width는 absolute error와 강하게 맞물렸다.
HN이 이 농담 같은 테스트에 반응한 이유는 분명했다. 작은 local model의 선명한 SVG 한 장이 flagship model보다 좋아 보일 때, 그것이 무엇을 증명하는지 아무도 쉽게 합의하지 못한다.
1247점과 328개 댓글을 모은 Hacker News 스레드에서 AISLE는 scoped context가 주어지면 작은 open-weight model도 Mythos가 보여준 exploit analysis의 상당 부분을 재현할 수 있다고 주장했고, 댓글은 methodology를 두고 크게 갈렸다.
520점과 132개 댓글을 모은 Hacker News 스레드에서 Berkeley 연구진은 8개 주요 AI agent benchmark가 실제 해결 없이도 harness 취약점으로 거의 만점에 가까운 score를 만들 수 있다고 주장했다.
UC Berkeley 연구진은 주요 AI agent benchmark 8종을 감사한 결과, 실제 문제를 풀지 않고도 거의 만점에 가까운 점수를 만들 수 있었다고 밝혔다. 글의 핵심은 leaderboard 수치보다 evaluation 설계와 공격 저항성을 먼저 보라는 것이다.
Google DeepMind가 9건의 연구와 1만명 이상 참가자 데이터를 바탕으로 AI harmful manipulation을 측정하는 평가 툴킷을 공개했다. 금융과 건강처럼 도메인별로 조작 위험이 다르게 나타난다는 점도 함께 제시했다.
Penfield Labs는 LoCoMo answer key 1,540문항 중 99개가 score를 왜곡한다고 주장했고, gpt-4o-mini judge가 의도적으로 틀린 답변도 62.81% 통과시켰다고 보고해 benchmark 신뢰성 논쟁을 키웠다.
Google DeepMind는 2026년 3월 26일 대화형 AI가 감정을 악용하거나 사람을 해로운 선택으로 유도할 수 있는지를 다룬 새 연구를 공개했다. 회사는 영국·미국·인도 참가자 1만 명 이상이 참여한 9개 연구를 바탕으로, harmful AI manipulation을 측정하는 첫 empirically validated toolkit을 만들었다고 밝혔다.
ARC Prize는 ARC-AGI-3를 static puzzle 정답률이 아니라 새로운 환경 안에서의 planning, memory compression, belief updating을 측정하는 interactive reasoning benchmark로 설명한다. Hacker News에서는 이 점이 실제 agent behavior를 더 잘 드러낸다는 이유로 큰 관심을 모았다.