SkillsBench 연구: self-generated Agent Skill은 평균적으로 효과가 없었다
Original: Study: Self-generated Agent Skills are useless View original →
Hacker News에서 공유된 연구
2026년 2월 16일 Hacker News에 올라온 "Study: Self-generated Agent Skills are useless" 글은 arXiv 논문 SkillsBench를 소개한다. 해당 HN 항목은 작성 시점 기준 score 217, comment 102를 기록했다. 핵심 질문은 단순하다. Agent에 Skill 문서를 붙이면 실제 작업 성공률이 얼마나 올라가는가, 그리고 모델이 스스로 작성한 Skill도 같은 효과를 내는가다.
실험 설계 요약
논문은 11개 도메인에 걸친 86개 태스크를 구성하고, 각 태스크에 curated Skill과 deterministic verifier를 연결했다. 평가는 3가지 조건으로 진행됐다. 첫째 no skills, 둘째 curated skills, 셋째 self-generated skills다. 저자들은 7개 agent-model 설정에서 총 7,308 trajectories를 수집해 pass rate를 비교했다. 즉, 개별 데모가 아니라 반복 가능한 벤치마크 형태로 Skill의 기여도를 분리해 측정했다.
핵심 결과
- curated Skill 사용 시 평균 pass rate가 +16.2 percentage points 상승
- 도메인별 개선 폭은 Software Engineering +4.5pp에서 Healthcare +51.9pp까지 크게 차이
- 84개 태스크 중 16개는 오히려 성능이 하락하는 negative delta 관측
- self-generated Skill은 평균적으로 유의미한 이득을 만들지 못함
- 2~3개 모듈로 구성된 focused Skill이 방대한 문서형 Skill보다 더 나은 경향
실무 관점의 해석
이 결과는 "모델이 똑똑해지면 절차 지식도 자동으로 만들어낼 것"이라는 가정을 약화시킨다. 현재 단계에서는 모델 규모 확장보다, 검증 가능한 절차를 짧고 명확한 형태로 설계해 주는 편이 더 안정적인 실행 성능을 만든다는 뜻이다. 특히 에이전트 파이프라인을 운영하는 팀이라면 Skill 품질 관리, 도메인별 verifier, 실패 태스크 분석을 배포 전 기본 공정으로 넣어야 한다. 논문은 Agent 성능이 prompt 한 줄이 아니라 "절차 자산의 품질"에 강하게 의존한다는 점을 수치로 보여준다.
Related Articles
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.
Anthropic은 Claude 선거 안전 장치를 수치로 공개했다. Opus 4.7과 Sonnet 4.6은 600개 프롬프트 선거 정책 시험에서 100%와 99.8%의 적합 응답을 기록했고, 미국 중간선거 관련 질의에서는 웹 검색을 92%와 95% 비율로 호출했다.
HN은 GPT-5.5를 또 하나의 모델 출시보다 컴퓨터 일을 얼마나 끝까지 맡길 수 있나의 시험대로 읽었다. 댓글도 벤치마크보다 롤아웃, API 시점, 실제 코딩 워크플로 투입 가능성에 더 오래 머물렀다.
Comments (0)
No comments yet. Be the first to comment!