SkillOpt, 모델 가중치 그대로 agent 점수 23.5점 끌어올린 skill 학습법
Original: SkillOpt: Agent skills as trainable parameters View original →
agent 성능을 올리는 길이 꼭 모델 가중치 수정만은 아니라는 실험 결과가 나왔다. Microsoft Research는 2026년 6월 30일 16:50:02 UTC에 SkillOpt를 공개하며, 자연어 skill 파일을 trainable parameter처럼 최적화하는 방법을 제시했다. 모델 자체는 그대로 두고, 모델이 일을 푸는 절차를 담은 문서를 학습 대상으로 삼는 접근이다.
숫자는 작지 않다. GPT-5.5 direct chat 기준 SkillOpt는 6개 benchmark 평균을 58.8에서 82.3으로 올렸다. 절대값으로 +23.5점이다. 평가 대상은 SearchQA, SpreadsheetBench, OfficeQA, DocVQA, LiveMathematicianBench, ALFWorld였고, 모델은 GPT-5.5부터 Qwen3.5-4B까지 7종, 실행 방식은 direct chat, Codex, Claude Code 3가지였다. Microsoft는 총 52개 평가 셀에서 SkillOpt가 최고 또는 공동 최고였다고 설명했다.
이 결과가 의미 있는 이유는 agent 실패가 종종 지능 부족보다 절차 실패에서 나오기 때문이다. SkillOpt는 skill 파일에 대한 수정안을 탐색하고, 거절된 수정의 기록을 남기며, validation split과 느린 업데이트를 써서 불안정한 prompt drift를 줄인다. 결과물도 거대한 숨은 prompt가 아니다. Microsoft는 6개 사례에서 최종 skill 길이의 중앙값이 약 920 tokens였고, 최종 파일에 받아들여진 수정은 1~4개였다고 밝혔다.
가장 흥미로운 대목은 이식성이다. Codex 안에서 훈련한 spreadsheet skill을 Claude Code로 옮기자 no-skill 기준 22.1이 81.8로 올랐다. Claude Code 안에서 직접 훈련한 결과인 80.4보다 약간 높다. 특정 도구 이름을 외운 것이 아니라, 작업을 푸는 일반 절차가 skill 파일에 담겼을 가능성을 보여준다.
한계도 분명하다. SkillOpt는 평가기나 verifier가 있어야 잘 작동한다. 하지만 기업용 agent에서는 오히려 그 조건이 현실적이다. 스프레드시트, 문서 질의응답, 검색, 코딩, 사내 운영 작업에는 테스트와 정답, 검수 절차가 붙는 경우가 많다. benchmark 밖에서도 같은 흐름이 유지된다면, agent stack에는 작고 감사 가능하며 버전 관리되는 새 적응 계층이 생긴다. 이 방식은 팀별 작업 규칙을 모델 밖에서 훈련하고 되돌릴 수 있다는 점에서도 운영 부담을 줄인다. 출처: Microsoft Research, 2026년 6월 30일.
Related Articles
GitHub이 Copilot agentic harness를 SWE-bench Verified, SWE-bench Pro, SkillsBench, TerminalBench, Win-Hill에서 비교했다. 같은 모델·같은 과제 조건에서 해결률은 모델 기본 하네스와 비슷했고, 대부분의 구성에서 토큰 사용량은 더 낮았다는 점이 핵심이다.
300점 안팎의 HN 반응은 “secret이 안 샜다”보다 실험 조건이 실제 에이전트 위험을 얼마나 반영하는지에 모였다.
모델 선택이 정적 리더보드에서 실행 중 라우팅 문제로 바뀌고 있다. OpenRouter는 Benchmarks API로 Artificial Analysis와 Design Arena 등 실시간 점수를 에이전트가 조회할 수 있게 했고, GLM-5.2가 코딩과 디자인 모두에서 최상위라고 적었다.