r/singularityで議論、Meta-HarnessのClaude Code超え主張とAI設計harness

r/singularityの投稿は286ポイント、57件のコメントを集め、Stanford researchersがharnessをautonomously改善し、TerminalBench 2でClaude Codeを大きく上回ったという framing で広がった。本文は Meta-Harness のページにリンクしており、スレッドでは見出しそのものより、実際に何が最適化されたのかが話題の中心になった。

Meta-Harness のページは、これを model harnesses のための end-to-end optimization method と説明している。焦点は base model そのものではなく、agent がファイルを読み、tools を使い、execution feedback を取り込む周辺の仕組みだ。この説明は Reddit comments の主要論点と重なっていた。多くのユーザーは、harness とは具体的に何なのか、そして性能向上のどれだけが強い model ではなく orchestration の改善から来るのかを確かめようとしていた。

ページには、より小さな illustrative 19-task search の結果も載っている。iteration 7 までに Terminus-KIRA 28.5% から 46.5% へ改善したという内容だ。さらに TerminalBench-2 全体については、code translation、distributed ML setup、systems programming、bioinformatics、cryptanalysis などを含む 89 の Dockerized tasks からなる benchmark だと説明されている。harness search の proposer は filesystem 上で full source code、scores、execution traces を調べられる coding agent で、ページはその proposer が grep や cat を使う Claude Code だと明記している。

Claude Opus 4.6 では Meta-Harness が 76.4% に達し、Terminus-KIRA 74.7% と Claude Code 58.0 を上回り、引用された leaderboard page で Opus 4.6 agents の 2 位とされた。
Claude Haiku 4.5 では Meta-Harness が 37.6% を記録し、Goose 35.5 と Claude Code 27.5 を上回り、Haiku 4.5 agents の 1 位とされた。

ただし、Reddit の反応は数値の紹介で終わらなかった。コメントでは、AI が設計した harness が人間の manual development loop を追い越せるのか、そして同じ最適化の波が open models にも来るのかが繰り返し議論された。つまりこのスレッドの面白さは、単に Claude Code に勝ったという一点ではなく、model の外側にある system design を自動で改良する発想がどこまで一般化できるかにあった。

その意味で、この投稿はコミュニティの関心をかなり素直に映している。r/singularity の参加者は benchmark の勝敗だけでなく、harness という層が今後の agent performance の主要な差別化要因になり得るかを見ていた。Meta-Harness の話は、base model の競争だけでなく、tooling、orchestration、evaluation loop の 개선도引き続き大きなレバーになり得るという見方を後押しした。

r/singularityで議論、Meta-HarnessのClaude Code超え主張とAI設計harness

Related Articles

Copilot BusinessにMAI-Code-1-Flash GA、速いcoding loop向け選択肢

Claude Code利用でautonomy上昇、Anthropicが仕事への影響をusage dataで再測定

OpenAIとHugging Faceの評価事故、焦点はcyber benchmarkの隔離設計へ

Related Articles

Copilot BusinessにMAI-Code-1-Flash GA、速いcoding loop向け選択肢
AI Jun 27, 2026 1 min read

Claude Code利用でautonomy上昇、Anthropicが仕事への影響をusage dataで再測定
AI X/Twitter Jun 28, 2026 1 min read

OpenAIとHugging Faceの評価事故、焦点はcyber benchmarkの隔離設計へ