Skip to content

#llm-evals

RSS Feed
AI Reddit Apr 10, 2026 2 min read

LocalLLaMA에서 큰 반응을 얻은 글은 Anthropic Mythos가 예시로 든 취약점 분석 일부를 더 작고 저렴한 open 또는 low-cost model도 상당 부분 재현할 수 있다고 주장했다. 다만 댓글은 취약 코드를 이미 좁혀 놓은 상태의 reasoning과, 실제 대규모 코드베이스에서 그 버그를 찾아내는 일은 전혀 다르다고 선을 그었다.

LLM Mar 12, 2026 1 min read

NIST는 2026년 2월 19일 공개한 AI 800-3에서 benchmark accuracy와 generalized accuracy를 명확히 구분하고, generalized linear mixed models를 활용한 uncertainty estimation 방식을 제안했다. 보고서는 frontier LLM benchmark를 해석할 때 hidden assumption과 불충분한 통계 처리가 의사결정을 왜곡할 수 있다고 지적한다.