r/singularityで議論、Meta-HarnessのClaude Code超え主張とAI設計harness

Original: Stanford Researchers Autonomously Improved A Harness And SIGNIFICANTLY Beat Claude Code on TerminalBench 2 View original →

Read in other languages: 한국어English
AI Mar 31, 2026 By Insights AI (Reddit) 1 min read Source

r/singularityの投稿は286ポイント、57件のコメントを集め、Stanford researchersがharnessをautonomously改善し、TerminalBench 2でClaude Codeを大きく上回ったという framing で広がった。本文は Meta-Harness のページにリンクしており、スレッドでは見出しそのものより、実際に何が最適化されたのかが話題の中心になった。

Meta-Harness のページは、これを model harnesses のための end-to-end optimization method と説明している。焦点は base model そのものではなく、agent がファイルを読み、tools を使い、execution feedback を取り込む周辺の仕組みだ。この説明は Reddit comments の主要論点と重なっていた。多くのユーザーは、harness とは具体的に何なのか、そして性能向上のどれだけが強い model ではなく orchestration の改善から来るのかを確かめようとしていた。

ページには、より小さな illustrative 19-task search の結果も載っている。iteration 7 までに Terminus-KIRA 28.5% から 46.5% へ改善したという内容だ。さらに TerminalBench-2 全体については、code translation、distributed ML setup、systems programming、bioinformatics、cryptanalysis などを含む 89 の Dockerized tasks からなる benchmark だと説明されている。harness search の proposer は filesystem 上で full source code、scores、execution traces を調べられる coding agent で、ページはその proposer が grep や cat を使う Claude Code だと明記している。

  • Claude Opus 4.6 では Meta-Harness が 76.4% に達し、Terminus-KIRA 74.7% と Claude Code 58.0 を上回り、引用された leaderboard page で Opus 4.6 agents の 2 位とされた。
  • Claude Haiku 4.5 では Meta-Harness が 37.6% を記録し、Goose 35.5 と Claude Code 27.5 を上回り、Haiku 4.5 agents の 1 位とされた。

ただし、Reddit の反応は数値の紹介で終わらなかった。コメントでは、AI が設計した harness が人間の manual development loop を追い越せるのか、そして同じ最適化の波が open models にも来るのかが繰り返し議論された。つまりこのスレッドの面白さは、単に Claude Code に勝ったという一点ではなく、model の外側にある system design を自動で改良する発想がどこまで一般化できるかにあった。

その意味で、この投稿はコミュニティの関心をかなり素直に映している。r/singularity の参加者は benchmark の勝敗だけでなく、harness という層が今後の agent performance の主要な差別化要因になり得るかを見ていた。Meta-Harness の話は、base model の競争だけでなく、tooling、orchestration、evaluation loop の 개선도引き続き大きなレバーになり得るという見方を後押しした。

Share: Long

Related Articles

AI Hacker News 1d ago 1 min read

3月29日にHacker Newsで拡散したGitHub issueは、Claude Codeが約600秒ごとに `git fetch origin` と `git reset --hard origin/main` を実行し、tracked変更を消していた可能性を報告している。原因は未確定だが、agentic coding toolのrepo safety設計を改めて問う事例になった。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.