LLM 코딩 성능, 모델이 아닌 '하네스' 설계가 핵심
Original: Improving 15 LLMs at Coding in One Afternoon: Only the Harness Changed View original →
개요
Can Bölük은 LLM의 코딩 성능 병목이 모델 선택이 아닌 편집 도구(harness) 설계에 있다는 것을 입증했다. 16개 모델을 대상으로 180개 React 코드베이스 작업을 테스트한 결과, 편집 방식만 바꿔도 성능이 극적으로 향상되는 것을 확인했다.
기존 편집 방식의 문제점
Patch 포맷 (OpenAI/Codex): diff 스타일 문자열을 사용하지만 GPT가 아닌 모델에서는 치명적으로 실패한다. Grok 4의 실패율이 50.7%에 달했다.
문자열 대체 (Claude Code): 공백을 포함한 정확한 문자 일치가 필요해 "String to replace not found" 오류가 빈번하게 발생한다.
신경망 병합 (Cursor): 편집 실패를 수정하기 위해 별도 모델을 파인튜닝했다. 이는 문제의 심각성을 인정하는 것이다.
Hashline 솔루션
저자는 각 라인에 컨텐츠 해시 태그를 붙이는 방식을 제안했다. 모델은 텍스트를 재현하는 대신 해시 태그를 참조한다. 이를 통해:
- 읽기와 쓰기 사이 파일이 변경되어도 오염이 방지된다
- 공백 재현 요구사항이 제거된다
- 모델이 작업 이해에 실패하는 것이 아니라 표현 방식에서 실패한다는 것을 보여준다
벤치마크 결과
Grok Code Fast의 경우 성공률이 6.7%에서 68.3%로 향상되어 10배 개선 효과를 보였다. 이는 "모델이 작업을 이해하지 못하는 것이 아니라, 자신을 표현하는 방식이 불안정한 것"임을 증명한다.
핵심 교훈
오픈소스 하네스 개발은 모든 모델에 혜택을 주지만, 벤더별 최적화는 고립된 사일로를 만들어 궁극적으로 생태계 발전을 저해한다. 현재 가장 높은 레버리지를 발휘할 수 있는 혁신 지점은 모델 개선이 아닌 하네스 설계다.
Related Articles
안드레이 카르파티가 LLM 응답을 HTML 형식으로 요청한 뒤 브라우저에서 여는 실용적인 팁을 공유했다. 텍스트에서 마크다운, HTML, 인터랙티브 신경 시뮬레이션으로 이어지는 인간-AI 인터페이스의 진화 방향도 함께 제시한다.
Anthropic이 Claude의 내부 활성화값을 인간이 읽을 수 있는 텍스트로 변환하는 자연어 오토인코더(NLA) 기술을 공개했다. 모델 내부 상태를 직접 해석해 AI 감사와 정렬 연구에 활용할 수 있다는 점에서 해석 가능성 연구의 새 이정표다.
Cloudflare가 Anthropic의 보안 특화 모델 Mythos Preview를 자사 인프라에 실전 테스트한 결과를 공개했다. Mythos는 개별 저위험 버그들을 연결해 실제로 동작하는 익스플로잇을 생성할 수 있으며, 이는 시니어 보안 연구자 수준의 추론 능력을 보여준다.