TerminalBench 65.2%のDirac、HNが見た焦点はモデルよりハーネス

Hacker Newsはこれを単なる自慢投稿としては受け取らなかった。スレッドはすぐに「Diracの勝因はモデルなのか、それとも文脈を無駄にしないハーネスなのか」という論点に移った。Show HNの投稿では、Diracがgemini-3-flash-previewでTerminalBench 2の65.2%を記録し、Googleの公式ベースライン47.6%、Junie CLIの64.3%を上回ったと説明している。さらに、ベンチ向けのAGENTS.mdや細工は入れていないと強調したため、議論は自然に「どこで差が付いたのか」に集中した。

Diracのリポジトリが前面に出しているのも、その部分だ。READMEでは、ハッシュアンカー型の編集、ASTベースのスコープ選択、ファイル操作のバッチ化、次に必要になりそうな情報を先回りで集める文脈キュレーションを核に据えている。コーディングエージェントは文脈が膨らむほど精度が落ちる。その前提を受け入れ、より大きいモデルではなく、見せる情報の絞り方で勝負する設計だ。

HNのコメントもほぼ同じ方向を向いた。最初の方に出たのは「これは新しいモデルの話なのか、それとも新しいラッパーの話なのか」という問いだった。投稿者は、モデルは標準のGemini 3 Flash Previewのままで、差はツールチェーン側だと答えている。そこから、巨大なコードベースではなぜASTベースの探索が効くのか、grepだけでは一般名詞のシンボルやバンドル済みファイルに引っ張られて文脈を浪費しやすいのではないか、という実務寄りの話に広がった。

面白いのは、HNがこの高スコアを単独の記録として消費しなかった点だ。TerminalBenchの数字は、コーディングエージェントの性能がモデル公開の速さだけで決まらないことを示す材料として読まれた。同じモデルでも、検索の仕方、編集の仕方、長いタスクの扱い方が変われば結果はかなり変わる。HNがこのShow HNに食いついたのは、まさにその点だった。

TerminalBench 65.2%のDirac、HNが見た焦点はモデルよりハーネス

Related Articles

DiracがTerminalBench首位　HNが食いついたのは点数よりトークン設計

Kimi K2.6、agent swarmを300体・4,000 stepへ拡張し実ファイル出力を本格化

Qwen3.6-35B結果より大きかった論点、LocalLLaMAが見たscaffold問題

Comments (0)

Leave a Comment

Related Articles

DiracがTerminalBench首位　HNが食いついたのは点数よりトークン設計

Kimi K2.6、agent swarmを300体・4,000 stepへ拡張し実ファイル出力を本格化
重要なのは、Moonshotが“agent swarm”をdemo wordではなく実行スケールの数字で押し出していることだ。Kimiのpostは、1回のrunで300 sub-agentと4,000 stepを回し、chatではなく100超のfilesを返せるとした。

Qwen3.6-35B結果より大きかった論点、LocalLLaMAが見たscaffold問題
LocalLLaMAを動かしたのは単なるQwenのスコア更新ではなかった。同じ系統のローカルモデルがscaffold変更だけで19%から45%、さらに78.7%へ伸びたという流れが、ベンチマーク比較そのものを見直す空気を生んだ。