LLMコーディング性能:モデルではなくハーネス設計が鍵
Original: Improving 15 LLMs at Coding in One Afternoon: Only the Harness Changed View original →
概要
Can Bölükは、LLMのコーディング性能のボトルネックがモデル選択ではなく編集ツール(harness)設計にあることを実証した。16のモデルで180のReactコードベースタスクをテストした結果、編集アプローチのみを変更することで劇的な改善が得られることが判明した。
既存の編集アプローチの問題点
Patchフォーマット(OpenAI/Codex): diffスタイルの文字列を使用するが、GPT以外のモデルでは致命的に失敗する。Grok 4の失敗率は50.7%に達した。
文字列置換(Claude Code): 空白を含む正確な文字一致が必要で、「String to replace not found」エラーが頻繁に発生する。
ニューラルマージ(Cursor): 編集の失敗を修正するためだけに別のモデルをfine-tuningした。これは問題の深刻さを認めるものだ。
Hashlineソリューション
著者は各行にコンテンツハッシュタグを付ける方式を提案した。モデルはテキストを再現する代わりにハッシュタグを参照する。このアプローチにより:
- 読み取りと書き込みの間にファイルが変更されても破損が防止される
- 空白再現要件が削除される
- モデルがタスク理解に失敗しているのではなく、表現方法で失敗していることを示す
ベンチマーク結果
Grok Code Fastの成功率は6.7%から68.3%へ向上し、10倍の改善効果を示した。これは「モデルがタスクを理解できないのではなく、自己表現の方法が不安定である」ことを証明している。
重要な教訓
オープンソースのharness開発はすべてのモデルに利益をもたらすが、ベンダー固有の最適化は孤立したサイロを作り、最終的にエコシステムの進歩を妨げる。現在、最も高いレバレッジを発揮できる革新ポイントはモデル改善ではなく、harness設計だ。
Related Articles
重要なのは、open model陣営で長いcontextと実運用向けの二層構成が同時に出てくる例がまだ少ないことだ。DeepSeekは1M context、1.6T・49B Pro、284B・13B Flashという数字を一度に示した。
重要なのは、新しいmodelが開発者の常用toolへ入ってきたことだ。GitHubはGPT-5.5が複雑なmulti-step codingで最も強いとし、rolloutには7.5倍のpremium request multiplierが付くと示した。
2026年3月25日、Recoの`gnata`記事を扱ったHacker News投稿は、クロール時点で256 pointsと237 commentsを集めた。RecoはJSONata 2.xをGoへ移すAI-assisted作業が約7時間と400ドルのtoken costで始まり、RPC中心のNode fleet撤去と後続refactorを通じて年50万ドル規模の削減につながったと主張している。
Comments (0)
No comments yet. Be the first to comment!