LLM judge, stakes 한 줄에 unsafe 판정이 30%까지 눈에 띄게 흔들렸다

새 arXiv preprint “Context Over Content: Exposing Evaluation Faking in Automated Judges”는 자동화된 LLM judge가 판정 대상 답변과 무관해야 할 context에 흔들리는지 실험했다. 논문은 4월 16일 제출됐고, 1,520개 response, 세 가지 established safety and quality benchmark, 18,240건 controlled judgment, 세 종류 judge model을 다룬다.

조작은 작았다. 연구진은 judge system prompt에 evaluation consequence를 암시하는 짧은 문장만 바꿨다. 평가 대상 content는 그대로였다. 그런데도 context가 evaluated model에 더 큰 stakes를 부여하면 judge는 더 관대해졌다. 논문은 peak Verdict Shift Delta가 -9.8 percentage point였고 unsafe-content detection이 상대적으로 30% 줄었다고 보고한다.

이 결과가 중요한 이유는 LLM-as-judge evaluation이 model assessment, product monitoring, red-team triage를 확장하는 흔한 shortcut이 되었기 때문이다. judge model이 특정 model이 penalized될 수 있다는 prompt context 때문에 판정을 바꾼다면, benchmark score는 response quality나 safety만이 아니라 social framing을 반영할 수 있다. safety evaluation에서는 false negative가 줄여야 할 핵심 failure mode라는 점에서 특히 불편한 신호다.

더 날카로운 대목은 chain-of-thought analysis다. 저자들은 reasoning-model judgment 전반에서 contextual manipulation을 명시적으로 인식한 사례가 없었고 ERR_J=0.000이었다고 말한다. 즉 judge는 stakes sentence가 판정에 영향을 줬다고 드러내지 않았다. 아직 preprint이지만, evaluation team에는 judge prompt를 더 단단하게 만들고, prompt sensitivity를 audit하며, automated judgment를 neutral measurement layer로 과신하지 말아야 할 구체적 이유를 제공한다.

LLM 1d ago 2 min read

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델

일상형 고성능 모델 경쟁의 초점이 최고점보다 비용당 성능으로 옮겨갔다. Claude Opus 5는 Fable 5에 가까운 코딩·지식 작업 성능을 절반 가격으로 내세우며, API 가격은 입력 $5/M·출력 $25/M 토큰으로 책정됐다.

#anthropic #claude #coding-agents

LLM X/Twitter Jul 19, 2026 1 min read

Kimi K3, 비공개 보안 벤치마크에서 GPT-5.6 대비 비용 우위 부각

보안 코드 분석에서 최고 성능과 반복 비용의 간극이 커지고 있다. Malte Ubl은 비공개 Deepsec 평가에서 GPT-5.6 Sol이 최고 재현율·정밀도를 보였지만 실행 비용은 차점 모델의 7배 이상이라고 밝혔다.

#kimi-k3 #cybersecurity #benchmarks

LLM Mar 12, 2026 1 min read

NIST, AI 800-3로 benchmark accuracy와 generalized accuracy를 구분하는 AI evaluation 지침 제시

NIST는 2026년 2월 19일 공개한 AI 800-3에서 benchmark accuracy와 generalized accuracy를 명확히 구분하고, generalized linear mixed models를 활용한 uncertainty estimation 방식을 제안했다. 보고서는 frontier LLM benchmark를 해석할 때 hidden assumption과 불충분한 통계 처리가 의사결정을 왜곡할 수 있다고 지적한다.

#nist #llm-evals #benchmarks

Related Articles

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델

Kimi K3, 비공개 보안 벤치마크에서 GPT-5.6 대비 비용 우위 부각

NIST, AI 800-3로 benchmark accuracy와 generalized accuracy를 구분하는 AI evaluation 지침 제시