r/MachineLearning에서 공유된 새 arXiv 논문은 unofficial model access provider가 연구 결과와 운영 신뢰성을 모두 흔들 수 있다고 지적한다.
#evaluation
OpenAI는 Promptfoo를 인수해 보안·평가 기능을 OpenAI Frontier에 통합하겠다고 밝혔다. Promptfoo는 기존 라이선스 아래 open source로 유지되며, 기존 고객 지원도 계속된다고 설명했다.
OpenAI는 Chain-of-Thought controllability 평가 세트와 연구 문서를 공개했다고 밝혔다. 회사는 GPT-5.4 Thinking이 추론 과정을 의도적으로 숨기는 능력이 낮게 나타났으며, CoT 모니터링이 여전히 안전성 도구로 유효하다고 설명했다.
r/LocalLLaMA 게시글은 “매 편집 후 검증” 루프만으로 Qwen3.5-35B-A3B 점수가 22.2%에서 37.8%로 상승했다고 보고하며, Claude Opus 4.6 기준 40%와의 격차 축소를 강조했다.
Reddit r/singularity에서 주목받은 게시물은 OpenAI가 SWE-bench Verified 테스트 품질 문제를 이유로 해당 벤치마크 평가를 더 이상 사용하지 않겠다고 밝힌 소식을 공유했다. 최소 16.4% 결함 지적은 LLM 코딩 벤치마크 해석 방식에 직접적인 영향을 준다.
r/singularity에서 공유된 METR 후속 글은 2025년 “AI 사용 시 20% 감속” 결과 이후, 최신 도구 환경에서는 생산성 효과가 달라질 수 있음을 보여준다. 다만 연구팀은 강한 선택 편향 때문에 정밀한 추정은 어렵다고 명확히 밝혔다.
Hacker News에서 높은 반응을 얻은 글은 동일한 정책 의미라도 언어가 바뀌면 guardrail 점수가 36-53%까지 달라질 수 있다고 보고하며, 다국어 안전성 평가의 구조적 공백을 지적한다.
Hacker News에서 주목받은 SkillsBench 논문은 86개 태스크·11개 도메인에서 Agent Skill의 실제 효용을 비교했다. curated skill은 평균 통과율을 크게 끌어올렸지만, 모델이 직접 만든 skill은 평균 개선 효과를 보이지 않았다.
NIST 산하 CAISI는 2026년 1월 30일 언어모델 자동 벤치마크 평가 가이드 초안 NIST AI 800-2를 공개하고 3월 31일까지 공개 의견을 받는다. 문서는 평가 목표 정의, 실행, 결과 분석·보고의 실무 절차를 제시한다.
LocalLLaMA 토론에서 공유된 SWE-rebench 1월 결과는 Claude Code 선두 속에 상위 모델 격차 축소와 오픈 모델 추격을 보여줬다.