SkillsBench 연구: self-generated Agent Skill은 평균적으로 효과가 없었다

Hacker News에서 공유된 연구

2026년 2월 16일 Hacker News에 올라온 "Study: Self-generated Agent Skills are useless" 글은 arXiv 논문 SkillsBench를 소개한다. 해당 HN 항목은 작성 시점 기준 score 217, comment 102를 기록했다. 핵심 질문은 단순하다. Agent에 Skill 문서를 붙이면 실제 작업 성공률이 얼마나 올라가는가, 그리고 모델이 스스로 작성한 Skill도 같은 효과를 내는가다.

실험 설계 요약

논문은 11개 도메인에 걸친 86개 태스크를 구성하고, 각 태스크에 curated Skill과 deterministic verifier를 연결했다. 평가는 3가지 조건으로 진행됐다. 첫째 no skills, 둘째 curated skills, 셋째 self-generated skills다. 저자들은 7개 agent-model 설정에서 총 7,308 trajectories를 수집해 pass rate를 비교했다. 즉, 개별 데모가 아니라 반복 가능한 벤치마크 형태로 Skill의 기여도를 분리해 측정했다.

핵심 결과

curated Skill 사용 시 평균 pass rate가 +16.2 percentage points 상승
도메인별 개선 폭은 Software Engineering +4.5pp에서 Healthcare +51.9pp까지 크게 차이
84개 태스크 중 16개는 오히려 성능이 하락하는 negative delta 관측
self-generated Skill은 평균적으로 유의미한 이득을 만들지 못함
2~3개 모듈로 구성된 focused Skill이 방대한 문서형 Skill보다 더 나은 경향

실무 관점의 해석

이 결과는 "모델이 똑똑해지면 절차 지식도 자동으로 만들어낼 것"이라는 가정을 약화시킨다. 현재 단계에서는 모델 규모 확장보다, 검증 가능한 절차를 짧고 명확한 형태로 설계해 주는 편이 더 안정적인 실행 성능을 만든다는 뜻이다. 특히 에이전트 파이프라인을 운영하는 팀이라면 Skill 품질 관리, 도메인별 verifier, 실패 태스크 분석을 배포 전 기본 공정으로 넣어야 한다. 논문은 Agent 성능이 prompt 한 줄이 아니라 "절차 자산의 품질"에 강하게 의존한다는 점을 수치로 보여준다.

SkillsBench 연구: self-generated Agent Skill은 평균적으로 효과가 없었다

Hacker News에서 공유된 연구

실험 설계 요약

핵심 결과

실무 관점의 해석

Related Articles

Google Deep Research, Gemini 3.1 Pro·MCP 연결로 기업 조사 에이전트화

Anthropic, Claude 선거 안전성 시험 공개… 100%·99.8% 응답 적합도

GPT-5.5에 HN 들썩, 관건은 "끝까지 가는가"

Comments (0)

Leave a Comment