코딩 모델 평가가 정답률에서 코드 리뷰 품질로 옮겨가고 있다는 점에 HN 관심이 모였다. FrontierCode는 PR을 실제 maintainer가 받아들일지에 초점을 둔다.
#evals
RSS FeedHN 댓글은 solve rate보다 guardrail, 작업 방식, 보안 연구용 계정 조건이 결과를 얼마나 바꿨는지에 주목했다.
HN은 이번 글을 벤치마크 보고서보다 사실상의 부고장처럼 읽었다. 누가 몇 점을 찍었는지보다, 오염된 문제와 틀어진 테스트가 코딩 리더보드를 얼마나 빨리 무력화하는지가 더 큰 이야기였다.
새 벤치마크가 반갑다는 반응이 먼저였지만, HN은 곧바로 한 번만 시키는 점수판이 실제 코딩 모델을 보여주나를 따졌다.
Hacker News는 Anthropic 글을 “모델이 망가졌다”보다 “기본값과 프롬프트, 캐시 처리 방식이 체감 품질을 바꿨다”는 고백으로 읽었다. 2026년 4월 24일 크롤링 시점 기준 스레드는 727점, 543댓글이었다.
HN은 “AI cybersecurity is not proof of work”를 단순한 anti-hype 글로 읽지 않았다. 핵심 논쟁은 더 많은 GPU와 더 긴 sampling이 bugs를 찾는 충분조건인지, 아니면 model capability와 threat model이 병목인지였다.
Google DeepMind는 March 26, 2026 AI 시스템의 harmful manipulation을 측정하는 공개 toolkit을 내놨다고 밝혔다. 회사는 UK, US, India에서 10,000명+가 참여한 9개 연구를 바탕으로 했으며, 이 결과를 Gemini 3 Pro 같은 모델의 safety 평가에도 반영한다고 설명했다.
Google DeepMind는 AGI 진척을 평가하기 위한 cognitive taxonomy를 발표하고, 이를 실제 benchmark로 연결하기 위한 Kaggle hackathon도 함께 시작했다. 핵심은 단일 headline score 대신 10개 cognitive ability별로 AI를 human baseline과 비교하자는 제안이다.
Hacker News에서 주목받은 Skylar Payne의 글은 AI 시스템이 커질수록 팀들이 DSPy의 핵심 패턴을 다시 구현하게 된다고 주장한다. 동시에 HN 토론에서는 Python 중심성, prompt optimization의 위치, evals 설계 비용이 adoption을 늦추는 현실적 이유로 함께 지적됐다.
METR의 March 10, 2026 note는 최근 agent가 만든 SWE-bench Verified PR 가운데 test를 통과해도 절반가량은 maintainer review를 넘기지 못한다고 본다. HN은 이를 benchmark score가 아직 scope control, code quality, repo fit을 대신하지 못한다는 경고로 읽었다.