TerminalBench 65.2%のDirac、HNが見た焦点はモデルよりハーネス
Original: Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview View original →
Hacker Newsはこれを単なる自慢投稿としては受け取らなかった。スレッドはすぐに「Diracの勝因はモデルなのか、それとも文脈を無駄にしないハーネスなのか」という論点に移った。Show HNの投稿では、Diracがgemini-3-flash-previewでTerminalBench 2の65.2%を記録し、Googleの公式ベースライン47.6%、Junie CLIの64.3%を上回ったと説明している。さらに、ベンチ向けのAGENTS.mdや細工は入れていないと強調したため、議論は自然に「どこで差が付いたのか」に集中した。
Diracのリポジトリが前面に出しているのも、その部分だ。READMEでは、ハッシュアンカー型の編集、ASTベースのスコープ選択、ファイル操作のバッチ化、次に必要になりそうな情報を先回りで集める文脈キュレーションを核に据えている。コーディングエージェントは文脈が膨らむほど精度が落ちる。その前提を受け入れ、より大きいモデルではなく、見せる情報の絞り方で勝負する設計だ。
HNのコメントもほぼ同じ方向を向いた。最初の方に出たのは「これは新しいモデルの話なのか、それとも新しいラッパーの話なのか」という問いだった。投稿者は、モデルは標準のGemini 3 Flash Previewのままで、差はツールチェーン側だと答えている。そこから、巨大なコードベースではなぜASTベースの探索が効くのか、grepだけでは一般名詞のシンボルやバンドル済みファイルに引っ張られて文脈を浪費しやすいのではないか、という実務寄りの話に広がった。
面白いのは、HNがこの高スコアを単独の記録として消費しなかった点だ。TerminalBenchの数字は、コーディングエージェントの性能がモデル公開の速さだけで決まらないことを示す材料として読まれた。同じモデルでも、検索の仕方、編集の仕方、長いタスクの扱い方が変われば結果はかなり変わる。HNがこのShow HNに食いついたのは、まさにその点だった。
Related Articles
HNが反応したのは順位そのものではない。Diracが少ないトークン、hash-anchored edit、ASTベースの文脈選択でcoding agentを押し上げたという設計に注目が集まった。
重要なのは、Moonshotが“agent swarm”をdemo wordではなく実行スケールの数字で押し出していることだ。Kimiのpostは、1回のrunで300 sub-agentと4,000 stepを回し、chatではなく100超のfilesを返せるとした。
LocalLLaMAを動かしたのは単なるQwenのスコア更新ではなかった。同じ系統のローカルモデルがscaffold変更だけで19%から45%、さらに78.7%へ伸びたという流れが、ベンチマーク比較そのものを見直す空気を生んだ。
Comments (0)
No comments yet. Be the first to comment!