LLM 코딩 성능, 모델이 아닌 '하네스' 설계가 핵심

개요

Can Bölük은 LLM의 코딩 성능 병목이 모델 선택이 아닌 편집 도구(harness) 설계에 있다는 것을 입증했다. 16개 모델을 대상으로 180개 React 코드베이스 작업을 테스트한 결과, 편집 방식만 바꿔도 성능이 극적으로 향상되는 것을 확인했다.

Patch 포맷 (OpenAI/Codex): diff 스타일 문자열을 사용하지만 GPT가 아닌 모델에서는 치명적으로 실패한다. Grok 4의 실패율이 50.7%에 달했다.

문자열 대체 (Claude Code): 공백을 포함한 정확한 문자 일치가 필요해 "String to replace not found" 오류가 빈번하게 발생한다.

신경망 병합 (Cursor): 편집 실패를 수정하기 위해 별도 모델을 파인튜닝했다. 이는 문제의 심각성을 인정하는 것이다.

저자는 각 라인에 컨텐츠 해시 태그를 붙이는 방식을 제안했다. 모델은 텍스트를 재현하는 대신 해시 태그를 참조한다. 이를 통해:

Grok Code Fast의 경우 성공률이 6.7%에서 68.3%로 향상되어 10배 개선 효과를 보였다. 이는 "모델이 작업을 이해하지 못하는 것이 아니라, 자신을 표현하는 방식이 불안정한 것"임을 증명한다.

오픈소스 하네스 개발은 모든 모델에 혜택을 주지만, 벤더별 최적화는 고립된 사일로를 만들어 궁극적으로 생태계 발전을 저해한다. 현재 가장 높은 레버리지를 발휘할 수 있는 혁신 지점은 모델 개선이 아닌 하네스 설계다.