SkillsBench 연구: self-generated Agent Skill은 평균적으로 효과가 없었다
Original: Study: Self-generated Agent Skills are useless View original →
Hacker News에서 공유된 연구
2026년 2월 16일 Hacker News에 올라온 "Study: Self-generated Agent Skills are useless" 글은 arXiv 논문 SkillsBench를 소개한다. 해당 HN 항목은 작성 시점 기준 score 217, comment 102를 기록했다. 핵심 질문은 단순하다. Agent에 Skill 문서를 붙이면 실제 작업 성공률이 얼마나 올라가는가, 그리고 모델이 스스로 작성한 Skill도 같은 효과를 내는가다.
실험 설계 요약
논문은 11개 도메인에 걸친 86개 태스크를 구성하고, 각 태스크에 curated Skill과 deterministic verifier를 연결했다. 평가는 3가지 조건으로 진행됐다. 첫째 no skills, 둘째 curated skills, 셋째 self-generated skills다. 저자들은 7개 agent-model 설정에서 총 7,308 trajectories를 수집해 pass rate를 비교했다. 즉, 개별 데모가 아니라 반복 가능한 벤치마크 형태로 Skill의 기여도를 분리해 측정했다.
핵심 결과
- curated Skill 사용 시 평균 pass rate가 +16.2 percentage points 상승
- 도메인별 개선 폭은 Software Engineering +4.5pp에서 Healthcare +51.9pp까지 크게 차이
- 84개 태스크 중 16개는 오히려 성능이 하락하는 negative delta 관측
- self-generated Skill은 평균적으로 유의미한 이득을 만들지 못함
- 2~3개 모듈로 구성된 focused Skill이 방대한 문서형 Skill보다 더 나은 경향
실무 관점의 해석
이 결과는 "모델이 똑똑해지면 절차 지식도 자동으로 만들어낼 것"이라는 가정을 약화시킨다. 현재 단계에서는 모델 규모 확장보다, 검증 가능한 절차를 짧고 명확한 형태로 설계해 주는 편이 더 안정적인 실행 성능을 만든다는 뜻이다. 특히 에이전트 파이프라인을 운영하는 팀이라면 Skill 품질 관리, 도메인별 verifier, 실패 태스크 분석을 배포 전 기본 공정으로 넣어야 한다. 논문은 Agent 성능이 prompt 한 줄이 아니라 "절차 자산의 품질"에 강하게 의존한다는 점을 수치로 보여준다.
Related Articles
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
중국 AI 연구소 DeepSeek이 텍스트·이미지·동영상·오디오를 처리하는 1조 매개변수 멀티모달 모델 V4를 이번 주 공개할 예정이며, 화웨이 칩에 최적화돼 미국 GPU 의존도를 낮춘 점이 주목된다.
OpenAI는 First Proof 10문제 전체에 대한 증명 시도를 공개하고, 전문가 피드백 기준으로 최소 5개가 맞을 가능성이 높다고 밝혔다. 회사는 이를 일반 benchmark를 넘어서는 장기 추론 평가라고 설명했다.
Comments (0)
No comments yet. Be the first to comment!