LLMコーディング性能：モデルではなくハーネス設計が鍵

概要

Can Bölükは、LLMのコーディング性能のボトルネックがモデル選択ではなく編集ツール(harness)設計にあることを実証した。16のモデルで180のReactコードベースタスクをテストした結果、編集アプローチのみを変更することで劇的な改善が得られることが判明した。

Patchフォーマット(OpenAI/Codex): diffスタイルの文字列を使用するが、GPT以外のモデルでは致命的に失敗する。Grok 4の失敗率は50.7%に達した。

文字列置換(Claude Code): 空白を含む正確な文字一致が必要で、「String to replace not found」エラーが頻繁に発生する。

ニューラルマージ(Cursor): 編集の失敗を修正するためだけに別のモデルをfine-tuningした。これは問題の深刻さを認めるものだ。

著者は各行にコンテンツハッシュタグを付ける方式を提案した。モデルはテキストを再現する代わりにハッシュタグを参照する。このアプローチにより:

Grok Code Fastの成功率は6.7%から68.3%へ向上し、10倍の改善効果を示した。これは「モデルがタスクを理解できないのではなく、自己表現の方法が不安定である」ことを証明している。

オープンソースのharness開発はすべてのモデルに利益をもたらすが、ベンダー固有の最適化は孤立したサイロを作り、最終的にエコシステムの進歩を妨げる。現在、最も高いレバレッジを発揮できる革新ポイントはモデル改善ではなく、harness設計だ。