LLMコーディング性能:モデルではなくハーネス設計が鍵

Original: Improving 15 LLMs at Coding in One Afternoon: Only the Harness Changed View original →

Read in other languages: 한국어English
AI Feb 12, 2026 By Insights AI (HN) 1 min read Source

概要

Can Bölükは、LLMのコーディング性能のボトルネックがモデル選択ではなく編集ツール(harness)設計にあることを実証した。16のモデルで180のReactコードベースタスクをテストした結果、編集アプローチのみを変更することで劇的な改善が得られることが判明した。

既存の編集アプローチの問題点

Patchフォーマット(OpenAI/Codex): diffスタイルの文字列を使用するが、GPT以外のモデルでは致命的に失敗する。Grok 4の失敗率は50.7%に達した。

文字列置換(Claude Code): 空白を含む正確な文字一致が必要で、「String to replace not found」エラーが頻繁に発生する。

ニューラルマージ(Cursor): 編集の失敗を修正するためだけに別のモデルをfine-tuningした。これは問題の深刻さを認めるものだ。

Hashlineソリューション

著者は各行にコンテンツハッシュタグを付ける方式を提案した。モデルはテキストを再現する代わりにハッシュタグを参照する。このアプローチにより:

  • 読み取りと書き込みの間にファイルが変更されても破損が防止される
  • 空白再現要件が削除される
  • モデルがタスク理解に失敗しているのではなく、表現方法で失敗していることを示す

ベンチマーク結果

Grok Code Fastの成功率は6.7%から68.3%へ向上し、10倍の改善効果を示した。これは「モデルがタスクを理解できないのではなく、自己表現の方法が不安定である」ことを証明している。

重要な教訓

オープンソースのharness開発はすべてのモデルに利益をもたらすが、ベンダー固有の最適化は孤立したサイロを作り、最終的にエコシステムの進歩を妨げる。現在、最も高いレバレッジを発揮できる革新ポイントはモデル改善ではなく、harness設計だ。

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.