GitHub Copilot 하네스, 5개 코딩 벤치마크에서 토큰 효율성 제시
Original: GitHub benchmarks Copilot agentic harness across five coding tasks View original →
코딩 에이전트 경쟁의 초점이 모델 점수만이 아니라, 같은 모델을 어떤 하네스가 얼마나 효율적으로 굴리느냐로 옮겨가고 있다. GitHub는 2026년 6월 28일 올린 X 게시물에서 Copilot agentic harness를 모델 벤더가 제공하는 기본 하네스와 직접 비교했다고 밝혔다.
"We benchmarked the GitHub Copilot agentic harness against the harnesses that ship leading models natively. Holding the model and task fixed across SWE-bench Verified, SWE-bench Pro, SkillsBench, TerminalBench, and Win-Hill, the results were clear: Task resolution on par with model-vendor harnesses; fewer tokens across most configurations."
비교 대상은 SWE-bench Verified, SWE-bench Pro, SkillsBench, TerminalBench, Win-Hill이다. 모두 소프트웨어 수정, 터미널 작업, 도구 사용, 장기 과제 수행 능력을 보는 벤치마크라서 단순 코드 생성보다 실제 개발 워크플로에 가깝다. GitHub가 강조한 숫자는 “20개 이상 모델”이다. Copilot이 여러 모델을 지원하므로 개발자는 최고 품질 모델만 고르는 대신, 과제별로 토큰 비용과 해결률의 균형을 맞출 수 있다는 주장이다.
이 트윗의 의미는 GitHub가 모델 자체의 우열보다 실행 계층을 제품 차별화 지점으로 세운 데 있다. 같은 LLM이라도 계획, 파일 편집, 테스트 실행, 재시도, 컨텍스트 압축 방식에 따라 비용과 성공률이 달라진다. GitHub 블로그는 이 실험을 Copilot CLI와 에이전트형 개발 환경의 효율성 문제로 연결한다.
다음에 볼 지점은 원시 점수 공개 범위다. 과제별 해결률, 토큰 절감폭, 실패 유형이 더 자세히 공개되면 기업은 모델 선택뿐 아니라 하네스 선택을 별도 조달 기준으로 다룰 수 있다.
Related Articles
GitHub Copilot 앱 기술 미리보기가 유료 Copilot 고객 전체로 넓어지고, 로컬·클라우드 sandbox가 공개 미리보기로 붙었다. agent가 코드를 고치고 명령을 실행하는 시대의 핵심 쟁점이 모델 성능에서 실행 격리와 검증 흐름으로 이동하고 있다.
GitHub가 2026년 3월 11일 JetBrains IDE용 Copilot의 대규모 agentic 기능 업데이트를 발표했다. custom agents, sub-agents, plan agent를 일반 제공으로 전환하고, agent hooks preview, MCP auto-approve, reasoning UX 개선을 함께 묶은 점이 핵심이다.
에이전트 제품의 첫 인상은 모델 답변이 아니라 기다림에서 갈린다. GitHub는 Copilot 클라우드 에이전트 기동 시간이 20% 이상 짧아졌고, 이는 3월의 50% 개선에 이어 나온 후속 최적화라고 설명했다.