Microsoft Research가 긴 agent trajectory에서 첫 critical failure step을 찾는 AgentRx를 공개했다. 115개 failed trajectory benchmark와 nine-category taxonomy도 함께 내놓으며 failure localization과 root-cause attribution 개선 수치를 제시했다.
#evaluation
RSS Feedr/MachineLearning에서 주목한 유방암 segmentation 연구는 자동 생성 라벨을 학습과 평가에 함께 쓰면 younger patient 집단의 성능 저하와 bias가 실제보다 덜 드러날 수 있다고 지적한다.
OpenAI는 2026년 3월 9일 Promptfoo 인수 계획을 공개했다. OpenAI는 Promptfoo 기술이 OpenAI Frontier의 agentic security testing과 evaluation 역량을 강화할 것이며, Promptfoo는 기존 라이선스 아래 open source로 유지되고 기존 고객 지원도 이어간다고 밝혔다.
r/MachineLearning의 한 글은 Meta의 COCONUT 성과가 recycled hidden state 자체보다 curriculum 설계와 sequential processing에서 왔을 가능성이 크다고 주장한다.
Hacker News에서는 2026년 3월 12일 올라온 분석 글을 계기로, LLM 코딩 성능이 SWE-bench test 통과율보다 maintainer merge 기준에서 훨씬 약하게 보인다는 문제의식이 확산됐다.
r/MachineLearning의 한 고득점 토론은 proprietary model이 매달 바뀌고 이전 version이 사라지는 상황에서 benchmark 논문이 무엇을 남기는지 묻는다. 가장 설득력 있었던 답변은 ranking은 빨리 낡지만, dataset과 failure case는 오래 남아 실전 eval asset이 될 수 있다는 것이었다.
r/MachineLearning에서 공유된 새 arXiv 논문은 unofficial model access provider가 연구 결과와 운영 신뢰성을 모두 흔들 수 있다고 지적한다.
OpenAI는 Chain-of-Thought controllability 평가 세트와 연구 문서를 공개했다고 밝혔다. 회사는 GPT-5.4 Thinking이 추론 과정을 의도적으로 숨기는 능력이 낮게 나타났으며, CoT 모니터링이 여전히 안전성 도구로 유효하다고 설명했다.
r/LocalLLaMA 게시글은 “매 편집 후 검증” 루프만으로 Qwen3.5-35B-A3B 점수가 22.2%에서 37.8%로 상승했다고 보고하며, Claude Opus 4.6 기준 40%와의 격차 축소를 강조했다.
Reddit r/singularity에서 주목받은 게시물은 OpenAI가 SWE-bench Verified 테스트 품질 문제를 이유로 해당 벤치마크 평가를 더 이상 사용하지 않겠다고 밝힌 소식을 공유했다. 최소 16.4% 결함 지적은 LLM 코딩 벤치마크 해석 방식에 직접적인 영향을 준다.
r/singularity에서 공유된 METR 후속 글은 2025년 “AI 사용 시 20% 감속” 결과 이후, 최신 도구 환경에서는 생산성 효과가 달라질 수 있음을 보여준다. 다만 연구팀은 강한 선택 편향 때문에 정밀한 추정은 어렵다고 명확히 밝혔다.
Hacker News에서 높은 반응을 얻은 글은 동일한 정책 의미라도 언어가 바뀌면 guardrail 점수가 36-53%까지 달라질 수 있다고 보고하며, 다국어 안전성 평가의 구조적 공백을 지적한다.