#llm-evals

LLM Apr 19, 2026 1 min read

LLM judge, stakes 한 줄에 unsafe 판정이 30%까지 눈에 띄게 흔들렸다

새 arXiv preprint는 평가 결과의 consequences를 암시하는 한 줄만으로 LLM judge가 더 관대해졌다고 보고했다. 자동 safety·quality benchmark의 취약점이 드러났다.

AI Reddit Apr 10, 2026 2 min read

Mythos급 보안 분석, 정말 frontier model만 가능한가? Reddit의 검증

LocalLLaMA에서 큰 반응을 얻은 글은 Anthropic Mythos가 예시로 든 취약점 분석 일부를 더 작고 저렴한 open 또는 low-cost model도 상당 부분 재현할 수 있다고 주장했다. 다만 댓글은 취약 코드를 이미 좁혀 놓은 상태의 reasoning과, 실제 대규모 코드베이스에서 그 버그를 찾아내는 일은 전혀 다르다고 선을 그었다.

#cybersecurity #mythos #open-models

LLM Mar 12, 2026 1 min read

NIST, AI 800-3로 benchmark accuracy와 generalized accuracy를 구분하는 AI evaluation 지침 제시

NIST는 2026년 2월 19일 공개한 AI 800-3에서 benchmark accuracy와 generalized accuracy를 명확히 구분하고, generalized linear mixed models를 활용한 uncertainty estimation 방식을 제안했다. 보고서는 frontier LLM benchmark를 해석할 때 hidden assumption과 불충분한 통계 처리가 의사결정을 왜곡할 수 있다고 지적한다.

#nist #llm-evals #benchmarks