DiracがTerminalBench首位　HNが食いついたのは点数よりトークン設計

Hacker NewsでDiracが伸びた理由は、単なる首位報告ではなかった。Diracはgemini-3-flash-previewでTerminal-Bench-2の65.2%を出し、Googleの公開baselineとJunie CLIをわずかに上回ったと説明している。しかもREADMEではAPIコストを平均64.8%削ったと打ち出した。点数だけでなくコストまで動いたとなれば、HNが細部を見に行くのは自然だ。

READMEで前面に出ているのは、モデルの魔法より周辺設計だ。Diracは文脈を小さく保ち、ファイル編集ではhash-anchored parallel editsを使い、どのコードをプロンプトに入れるかをASTベースで判断する。要するに、巨大なリポジトリを丸ごと投げ込むのではなく、必要な断片だけを正確に拾ってモデルに見せる考え方だ。HNの議論もここに集まった。強かったのはモデル自体ではなく、モデルに何を見せるかを決める層ではないかという見方だ。

当然ながら懐疑も早かった。コメントでは、Diracをagent harnessとして見るべきか、fine-tuning込みの成果なのか、あるいは両方なのかという問いが出た。さらに、この改善がGemini flashに強く依存するのか、Qwenのような別モデルでも編集戦略の優位が残るのかを確かめたいという声もあった。こうした反応は健全だ。ただ、Dirac側が少なくとも具体的なメカニズムを示している点は大きい。anchored diff、ASTベースの取得、小さいcontext維持という技術的な筋道がある。

このスレッドで見えたのは、coding agentの評価軸が少し変わってきたことだ。HNはもう「どのモデルが一番賢いか」だけでは満足しない。無駄なトークンをどれだけ減らせるか、必要なファイルをどれだけ正確に拾えるか、大きなコードベースで整合性をどれだけ保てるか。そこが競争の本丸になりつつある。Diracが刺さったのは、その変化をかなり分かりやすく見せたからだ。

結局、今回の話題性は首位そのものよりも設計思想にある。詰め込みを減らし、探索を絞り、編集を鋭くする。HNはそのやり方が単発のleaderboardではなく、別モデルや別リポジトリでも通用するかを見ている。少なくとも今回の反応は、open agent競争の見どころが少し深くなったことを示している。

DiracがTerminalBench首位　HNが食いついたのは点数よりトークン設計

Related Articles

GLM 5.2、SemgrepのセキュリティbenchmarkでClaude Codeを上回る

Gemini Flash、低コストagent向けに3モデルへ分岐

Gemini 3.6 Flash、agent運用コストを前面に出した更新