LLM Hacker News Feb 17, 2026 1 min read
Hacker News에서 주목받은 SkillsBench 논문은 86개 태스크·11개 도메인에서 Agent Skill의 실제 효용을 비교했다. curated skill은 평균 통과율을 크게 끌어올렸지만, 모델이 직접 만든 skill은 평균 개선 효과를 보이지 않았다.
Hacker News에서 주목받은 SkillsBench 논문은 86개 태스크·11개 도메인에서 Agent Skill의 실제 효용을 비교했다. curated skill은 평균 통과율을 크게 끌어올렸지만, 모델이 직접 만든 skill은 평균 개선 효과를 보이지 않았다.
NIST 산하 CAISI는 2026년 1월 30일 언어모델 자동 벤치마크 평가 가이드 초안 NIST AI 800-2를 공개하고 3월 31일까지 공개 의견을 받는다. 문서는 평가 목표 정의, 실행, 결과 분석·보고의 실무 절차를 제시한다.
LocalLLaMA 토론에서 공유된 SWE-rebench 1월 결과는 Claude Code 선두 속에 상위 모델 격차 축소와 오픈 모델 추격을 보여줬다.