r/singularityで議論、Meta-HarnessのClaude Code超え主張とAI設計harness
Original: Stanford Researchers Autonomously Improved A Harness And SIGNIFICANTLY Beat Claude Code on TerminalBench 2 View original →
r/singularityの投稿は286ポイント、57件のコメントを集め、Stanford researchersがharnessをautonomously改善し、TerminalBench 2でClaude Codeを大きく上回ったという framing で広がった。本文は Meta-Harness のページにリンクしており、スレッドでは見出しそのものより、実際に何が最適化されたのかが話題の中心になった。
Meta-Harness のページは、これを model harnesses のための end-to-end optimization method と説明している。焦点は base model そのものではなく、agent がファイルを読み、tools を使い、execution feedback を取り込む周辺の仕組みだ。この説明は Reddit comments の主要論点と重なっていた。多くのユーザーは、harness とは具体的に何なのか、そして性能向上のどれだけが強い model ではなく orchestration の改善から来るのかを確かめようとしていた。
ページには、より小さな illustrative 19-task search の結果も載っている。iteration 7 までに Terminus-KIRA 28.5% から 46.5% へ改善したという内容だ。さらに TerminalBench-2 全体については、code translation、distributed ML setup、systems programming、bioinformatics、cryptanalysis などを含む 89 の Dockerized tasks からなる benchmark だと説明されている。harness search の proposer は filesystem 上で full source code、scores、execution traces を調べられる coding agent で、ページはその proposer が grep や cat を使う Claude Code だと明記している。
- Claude Opus 4.6 では Meta-Harness が 76.4% に達し、Terminus-KIRA 74.7% と Claude Code 58.0 を上回り、引用された leaderboard page で Opus 4.6 agents の 2 位とされた。
- Claude Haiku 4.5 では Meta-Harness が 37.6% を記録し、Goose 35.5 と Claude Code 27.5 を上回り、Haiku 4.5 agents の 1 位とされた。
ただし、Reddit の反応は数値の紹介で終わらなかった。コメントでは、AI が設計した harness が人間の manual development loop を追い越せるのか、そして同じ最適化の波が open models にも来るのかが繰り返し議論された。つまりこのスレッドの面白さは、単に Claude Code に勝ったという一点ではなく、model の外側にある system design を自動で改良する発想がどこまで一般化できるかにあった。
その意味で、この投稿はコミュニティの関心をかなり素直に映している。r/singularity の参加者は benchmark の勝敗だけでなく、harness という層が今後の agent performance の主要な差別化要因になり得るかを見ていた。Meta-Harness の話は、base model の競争だけでなく、tooling、orchestration、evaluation loop の 개선도引き続き大きなレバーになり得るという見方を後押しした。
Related Articles
Codexは開発支援から職種別workflowの表面へ広がっている。OpenAIは新pluginに62アプリと110スキルを束ね、Business・Enterprise向けSites previewも始めた。
AIによるAI開発は抽象論から実測指標へ移りつつある。AnthropicはMythos Previewが最適化課題で約52倍、研究判断テストで64%の優位を示したと説明した。
Redditでの焦点は、AI detectorが補助シグナルなのか、未校正の判定者なのかという点に移った。