#evaluation

LLM Reddit 6d ago 1 min read

Harness Training, 모델보다 “작업 발판”을 학습시키는 agent 실험

r/MachineLearning의 신선한 프로젝트 글은 모델을 다시 학습시키지 않고 harness 자체를 최적화하는 방식을 제안한다.

LLM May 27, 2026 1 min read

SWE-bench 순위도 흔들린 25.7% 결함, 벤치마크 감사 도구 등장

벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.

#benchmarks #swe-bench #agents

LLM Reddit Apr 28, 2026 2 min read

1930년에 멈춘 13B 모델 Talkie, r/singularity가 꽂힌 이유

r/singularity는 이 아이디어에 바로 반응했다. 1930년 이전 텍스트만 학습한 13B 모델이라는 설정이 신기해서만이 아니다. Talkie가 현대 웹 오염 없이 모델이 무엇을 배우는지 볼 수 있는 실험실처럼 읽혔기 때문이다.

#talkie #language-models #historical-data

LLM Reddit Apr 27, 2026 1 min read

SWE-bench Verified 사실상 수명 끝? LocalLLaMA가 benchmaxxed라 부른 배경

LocalLLaMA 반응은 놀람보다 체념에 가까웠다. 결국 공개 벤치마크는 이렇게 무너진다는 분위기였다. 이번엔 오염과 flawed test가 숫자로 정리되면서, 기존 자랑 포인트가 더는 안정적으로 보이지 않게 됐다.

#swe-bench #benchmarks #contamination

LLM Apr 17, 2026 1 min read

LLM judge, 문서 33-67%에서 일관성 붕괴를 숨겼다

새 arXiv 논문은 낮은 평균 오류율 뒤에 LLM judge의 per-document 불안정성이 숨어 있음을 보였다. SummEval에서 문서 33-67%가 directed 3-cycle을 하나 이상 보였고, prediction set width는 absolute error와 강하게 맞물렸다.

#llm #evaluation #benchmarks

LLM Hacker News Apr 17, 2026 2 min read

Qwen3.6의 pelican test, HN을 benchmark 논쟁으로 끌어들였다

HN이 이 농담 같은 테스트에 반응한 이유는 분명했다. 작은 local model의 선명한 SVG 한 장이 flagship model보다 좋아 보일 때, 그것이 무엇을 증명하는지 아무도 쉽게 합의하지 못한다.

#qwen #claude #local-llms

AI Hacker News Apr 13, 2026 1 min read

Hacker News에서 이어진 Mythos 후속 논쟁: 작은 open-weight model도 AI 보안 분석의 일부를 재현할 수 있나

1247점과 328개 댓글을 모은 Hacker News 스레드에서 AISLE는 scoped context가 주어지면 작은 open-weight model도 Mythos가 보여준 exploit analysis의 상당 부분을 재현할 수 있다고 주장했고, 댓글은 methodology를 두고 크게 갈렸다.

#cybersecurity #open-models #llm

AI Hacker News Apr 13, 2026 1 min read

Hacker News에서 주목한 Berkeley 경고: 주요 AI agent benchmark는 score hacking에 취약하다

520점과 132개 댓글을 모은 Hacker News 스레드에서 Berkeley 연구진은 8개 주요 AI agent benchmark가 실제 해결 없이도 harness 취약점으로 거의 만점에 가까운 score를 만들 수 있다고 주장했다.

#ai-agents #benchmarks #evaluation

AI Hacker News Apr 12, 2026 1 min read

Berkeley는 왜 AI agent benchmark 숫자를 믿기 어렵다고 말하나

UC Berkeley 연구진은 주요 AI agent benchmark 8종을 감사한 결과, 실제 문제를 풀지 않고도 거의 만점에 가까운 점수를 만들 수 있었다고 밝혔다. 글의 핵심은 leaderboard 수치보다 evaluation 설계와 공격 저항성을 먼저 보라는 것이다.

#benchmarks #ai-agents #evaluation

AI X/Twitter Mar 30, 2026 1 min read

Google DeepMind, 1만명 규모 연구 바탕으로 harmful manipulation 평가 툴킷 공개

Google DeepMind가 9건의 연구와 1만명 이상 참가자 데이터를 바탕으로 AI harmful manipulation을 측정하는 평가 툴킷을 공개했다. 금융과 건강처럼 도메인별로 조작 위험이 다르게 나타난다는 점도 함께 제시했다.

#google-deepmind #ai-safety #manipulation

LLM Reddit Mar 30, 2026 1 min read

LoCoMo audit 제기한 r/MachineLearning, answer key 오류 6.4%와 judge 취약성 지적

Penfield Labs는 LoCoMo answer key 1,540문항 중 99개가 score를 왜곡한다고 주장했고, gpt-4o-mini judge가 의도적으로 틀린 답변도 62.81% 통과시켰다고 보고해 benchmark 신뢰성 논쟁을 키웠다.

#benchmarks #memory-systems #evaluation

AI X/Twitter Mar 26, 2026 2 min read

Google DeepMind, 유해한 AI 조작을 실측하는 real-world toolkit 공개

Google DeepMind는 2026년 3월 26일 대화형 AI가 감정을 악용하거나 사람을 해로운 선택으로 유도할 수 있는지를 다룬 새 연구를 공개했다. 회사는 영국·미국·인도 참가자 1만 명 이상이 참여한 9개 연구를 바탕으로, harmful AI manipulation을 측정하는 첫 empirically validated toolkit을 만들었다고 밝혔다.

#google-deepmind #ai-safety #manipulation