LLM 코딩 성능, 모델이 아닌 '하네스' 설계가 핵심
Original: Improving 15 LLMs at Coding in One Afternoon: Only the Harness Changed View original →
개요
Can Bölük은 LLM의 코딩 성능 병목이 모델 선택이 아닌 편집 도구(harness) 설계에 있다는 것을 입증했다. 16개 모델을 대상으로 180개 React 코드베이스 작업을 테스트한 결과, 편집 방식만 바꿔도 성능이 극적으로 향상되는 것을 확인했다.
기존 편집 방식의 문제점
Patch 포맷 (OpenAI/Codex): diff 스타일 문자열을 사용하지만 GPT가 아닌 모델에서는 치명적으로 실패한다. Grok 4의 실패율이 50.7%에 달했다.
문자열 대체 (Claude Code): 공백을 포함한 정확한 문자 일치가 필요해 "String to replace not found" 오류가 빈번하게 발생한다.
신경망 병합 (Cursor): 편집 실패를 수정하기 위해 별도 모델을 파인튜닝했다. 이는 문제의 심각성을 인정하는 것이다.
Hashline 솔루션
저자는 각 라인에 컨텐츠 해시 태그를 붙이는 방식을 제안했다. 모델은 텍스트를 재현하는 대신 해시 태그를 참조한다. 이를 통해:
- 읽기와 쓰기 사이 파일이 변경되어도 오염이 방지된다
- 공백 재현 요구사항이 제거된다
- 모델이 작업 이해에 실패하는 것이 아니라 표현 방식에서 실패한다는 것을 보여준다
벤치마크 결과
Grok Code Fast의 경우 성공률이 6.7%에서 68.3%로 향상되어 10배 개선 효과를 보였다. 이는 "모델이 작업을 이해하지 못하는 것이 아니라, 자신을 표현하는 방식이 불안정한 것"임을 증명한다.
핵심 교훈
오픈소스 하네스 개발은 모든 모델에 혜택을 주지만, 벤더별 최적화는 고립된 사일로를 만들어 궁극적으로 생태계 발전을 저해한다. 현재 가장 높은 레버리지를 발휘할 수 있는 혁신 지점은 모델 개선이 아닌 하네스 설계다.
Related Articles
연구자가 LLM의 hidden state를 분석하여 6개 오픈소스 모델(7B-9B)의 행동 패턴을 7가지 축으로 측정했다. DeepSeek은 '열정적인 설명가', Llama는 '신중한 제너럴리스트', Yi는 '조용한 자신감'으로 각 모델이 고유한 행동 지문을 가진 것으로 나타났다.
Llama 3.2, DeepSeek-R1, Qwen3 등을 Chrome 브라우저에서 직접 실행하는 확장 프로그램. 서버, 구독료, API 비용 없이 완전히 로컬에서 작동하며, 오프라인 사용과 완벽한 프라이버시를 제공합니다.
Anthropic는 powerful AI가 사회에 던질 과제를 다루는 공익 조직 The Anthropic Institute를 출범시켰다. 회사는 이 조직이 technical·economic·social science 관점을 결합해 public conversation을 넓히는 역할을 맡는다고 밝혔다.
Comments (0)
No comments yet. Be the first to comment!