AI Agent Benchmark Watch: 점수, 도구 사용, judge 신뢰성

Berkeley의 benchmark hacking 분석, IBM VAKRA, AIBuildAI, HWE-Bench, LLM judge reliability 연구를 시간순으로 묶어 agent 평가가 어디서 과장되고 어디서 실제 성능으로 이어지는지 추적합니다.

Share: Long
1
2
3
4
5

© 2026 Insights. All rights reserved.