Skip to content

GitHub Copilot 하네스, 5개 코딩 벤치마크에서 토큰 효율성 제시

Original: GitHub benchmarks Copilot agentic harness across five coding tasks View original →

Read in other languages: English日本語
LLM Jun 30, 2026 By Insights AI (Twitter) 1 min read 1 views Source
GitHub Copilot 하네스, 5개 코딩 벤치마크에서 토큰 효율성 제시

코딩 에이전트 경쟁의 초점이 모델 점수만이 아니라, 같은 모델을 어떤 하네스가 얼마나 효율적으로 굴리느냐로 옮겨가고 있다. GitHub는 2026년 6월 28일 올린 X 게시물에서 Copilot agentic harness를 모델 벤더가 제공하는 기본 하네스와 직접 비교했다고 밝혔다.

"We benchmarked the GitHub Copilot agentic harness against the harnesses that ship leading models natively. Holding the model and task fixed across SWE-bench Verified, SWE-bench Pro, SkillsBench, TerminalBench, and Win-Hill, the results were clear: Task resolution on par with model-vendor harnesses; fewer tokens across most configurations."

비교 대상은 SWE-bench Verified, SWE-bench Pro, SkillsBench, TerminalBench, Win-Hill이다. 모두 소프트웨어 수정, 터미널 작업, 도구 사용, 장기 과제 수행 능력을 보는 벤치마크라서 단순 코드 생성보다 실제 개발 워크플로에 가깝다. GitHub가 강조한 숫자는 “20개 이상 모델”이다. Copilot이 여러 모델을 지원하므로 개발자는 최고 품질 모델만 고르는 대신, 과제별로 토큰 비용과 해결률의 균형을 맞출 수 있다는 주장이다.

이 트윗의 의미는 GitHub가 모델 자체의 우열보다 실행 계층을 제품 차별화 지점으로 세운 데 있다. 같은 LLM이라도 계획, 파일 편집, 테스트 실행, 재시도, 컨텍스트 압축 방식에 따라 비용과 성공률이 달라진다. GitHub 블로그는 이 실험을 Copilot CLI와 에이전트형 개발 환경의 효율성 문제로 연결한다.

다음에 볼 지점은 원시 점수 공개 범위다. 과제별 해결률, 토큰 절감폭, 실패 유형이 더 자세히 공개되면 기업은 모델 선택뿐 아니라 하네스 선택을 별도 조달 기준으로 다룰 수 있다.

Share: Long

Related Articles