LLMコーディング性能:モデルではなくハーネス設計が鍵
Original: Improving 15 LLMs at Coding in One Afternoon: Only the Harness Changed View original →
概要
Can Bölükは、LLMのコーディング性能のボトルネックがモデル選択ではなく編集ツール(harness)設計にあることを実証した。16のモデルで180のReactコードベースタスクをテストした結果、編集アプローチのみを変更することで劇的な改善が得られることが判明した。
既存の編集アプローチの問題点
Patchフォーマット(OpenAI/Codex): diffスタイルの文字列を使用するが、GPT以外のモデルでは致命的に失敗する。Grok 4の失敗率は50.7%に達した。
文字列置換(Claude Code): 空白を含む正確な文字一致が必要で、「String to replace not found」エラーが頻繁に発生する。
ニューラルマージ(Cursor): 編集の失敗を修正するためだけに別のモデルをfine-tuningした。これは問題の深刻さを認めるものだ。
Hashlineソリューション
著者は各行にコンテンツハッシュタグを付ける方式を提案した。モデルはテキストを再現する代わりにハッシュタグを参照する。このアプローチにより:
- 読み取りと書き込みの間にファイルが変更されても破損が防止される
- 空白再現要件が削除される
- モデルがタスク理解に失敗しているのではなく、表現方法で失敗していることを示す
ベンチマーク結果
Grok Code Fastの成功率は6.7%から68.3%へ向上し、10倍の改善効果を示した。これは「モデルがタスクを理解できないのではなく、自己表現の方法が不安定である」ことを証明している。
重要な教訓
オープンソースのharness開発はすべてのモデルに利益をもたらすが、ベンダー固有の最適化は孤立したサイロを作り、最終的にエコシステムの進歩を妨げる。現在、最も高いレバレッジを発揮できる革新ポイントはモデル改善ではなく、harness設計だ。
Related Articles
Microsoft Threat Intelligenceは2026年3月6日、攻撃者が調査、phishing、malware開発、侵害後分析までAIを活用していると報告した。AIはまだ大規模な完全自律侵入を実現していないが、攻撃の速度・規模・持続性をすでに押し上げているという整理だ。
r/LocalLLaMAで、Whisperが無音区間で文章を生成する問題に対し、Silero VADやprompt履歴遮断、blocklistを組み合わせた運用対策が公開された。
Hacker Newsは、Amazonがrecent outageの後にAI-assisted code changeへのsenior sign-offを強めるという報道に反応し、AI導入の本当のボトルネックがverificationとaccountabilityへ移っていると受け止めた。
Comments (0)
No comments yet. Be the first to comment!