LLMコーディング性能:モデルではなくハーネス設計が鍵
Original: Improving 15 LLMs at Coding in One Afternoon: Only the Harness Changed View original →
概要
Can Bölükは、LLMのコーディング性能のボトルネックがモデル選択ではなく編集ツール(harness)設計にあることを実証した。16のモデルで180のReactコードベースタスクをテストした結果、編集アプローチのみを変更することで劇的な改善が得られることが判明した。
既存の編集アプローチの問題点
Patchフォーマット(OpenAI/Codex): diffスタイルの文字列を使用するが、GPT以外のモデルでは致命的に失敗する。Grok 4の失敗率は50.7%に達した。
文字列置換(Claude Code): 空白を含む正確な文字一致が必要で、「String to replace not found」エラーが頻繁に発生する。
ニューラルマージ(Cursor): 編集の失敗を修正するためだけに別のモデルをfine-tuningした。これは問題の深刻さを認めるものだ。
Hashlineソリューション
著者は各行にコンテンツハッシュタグを付ける方式を提案した。モデルはテキストを再現する代わりにハッシュタグを参照する。このアプローチにより:
- 読み取りと書き込みの間にファイルが変更されても破損が防止される
- 空白再現要件が削除される
- モデルがタスク理解に失敗しているのではなく、表現方法で失敗していることを示す
ベンチマーク結果
Grok Code Fastの成功率は6.7%から68.3%へ向上し、10倍の改善効果を示した。これは「モデルがタスクを理解できないのではなく、自己表現の方法が不安定である」ことを証明している。
重要な教訓
オープンソースのharness開発はすべてのモデルに利益をもたらすが、ベンダー固有の最適化は孤立したサイロを作り、最終的にエコシステムの進歩を妨げる。現在、最も高いレバレッジを発揮できる革新ポイントはモデル改善ではなく、harness設計だ。
Related Articles
アンドレイ・カルパシーがLLMにHTML形式で回答を構造化するよう指示しブラウザで開くという実践的なヒントを共有。テキストからマークダウン、HTML、インタラクティブな神経シミュレーションへと進化する人間とAIのインターフェースの将来像も提示した。
AnthropicはClaudeの内部活性化値を自然言語テキストに変換する自然言語オートエンコーダ(NLA)技術を発表。AIの内部状態を直接解読し、安全性監査や整合性研究に活用できるとして、解釈可能性研究の新たな指標となる。
ByteDance Researchが、画像・動画の生成・編集・理解を単一モデルで処理するLance(3Bパラメータ)をApache 2.0ライセンスで公開した。主要ベンチマークでは7B以上のモデルに匹敵する性能を発揮している。