LLM 코딩 성능, 모델이 아닌 '하네스' 설계가 핵심

Original: Improving 15 LLMs at Coding in One Afternoon: Only the Harness Changed View original →

Read in other languages: English日本語
AI Feb 12, 2026 By Insights AI (HN) 1 min read 1 views Source

개요

Can Bölük은 LLM의 코딩 성능 병목이 모델 선택이 아닌 편집 도구(harness) 설계에 있다는 것을 입증했다. 16개 모델을 대상으로 180개 React 코드베이스 작업을 테스트한 결과, 편집 방식만 바꿔도 성능이 극적으로 향상되는 것을 확인했다.

기존 편집 방식의 문제점

Patch 포맷 (OpenAI/Codex): diff 스타일 문자열을 사용하지만 GPT가 아닌 모델에서는 치명적으로 실패한다. Grok 4의 실패율이 50.7%에 달했다.

문자열 대체 (Claude Code): 공백을 포함한 정확한 문자 일치가 필요해 "String to replace not found" 오류가 빈번하게 발생한다.

신경망 병합 (Cursor): 편집 실패를 수정하기 위해 별도 모델을 파인튜닝했다. 이는 문제의 심각성을 인정하는 것이다.

Hashline 솔루션

저자는 각 라인에 컨텐츠 해시 태그를 붙이는 방식을 제안했다. 모델은 텍스트를 재현하는 대신 해시 태그를 참조한다. 이를 통해:

  • 읽기와 쓰기 사이 파일이 변경되어도 오염이 방지된다
  • 공백 재현 요구사항이 제거된다
  • 모델이 작업 이해에 실패하는 것이 아니라 표현 방식에서 실패한다는 것을 보여준다

벤치마크 결과

Grok Code Fast의 경우 성공률이 6.7%에서 68.3%로 향상되어 10배 개선 효과를 보였다. 이는 "모델이 작업을 이해하지 못하는 것이 아니라, 자신을 표현하는 방식이 불안정한 것"임을 증명한다.

핵심 교훈

오픈소스 하네스 개발은 모든 모델에 혜택을 주지만, 벤더별 최적화는 고립된 사일로를 만들어 궁극적으로 생태계 발전을 저해한다. 현재 가장 높은 레버리지를 발휘할 수 있는 혁신 지점은 모델 개선이 아닌 하네스 설계다.

Share:

Related Articles

AI sources.twitter 1d ago 1 min read

Anthropic는 powerful AI가 사회에 던질 과제를 다루는 공익 조직 The Anthropic Institute를 출범시켰다. 회사는 이 조직이 technical·economic·social science 관점을 결합해 public conversation을 넓히는 역할을 맡는다고 밝혔다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.