DiracがTerminalBench首位 HNが食いついたのは点数よりトークン設計
Original: Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview View original →
Hacker NewsでDiracが伸びた理由は、単なる首位報告ではなかった。Diracはgemini-3-flash-previewでTerminal-Bench-2の65.2%を出し、Googleの公開baselineとJunie CLIをわずかに上回ったと説明している。しかもREADMEではAPIコストを平均64.8%削ったと打ち出した。点数だけでなくコストまで動いたとなれば、HNが細部を見に行くのは自然だ。
READMEで前面に出ているのは、モデルの魔法より周辺設計だ。Diracは文脈を小さく保ち、ファイル編集ではhash-anchored parallel editsを使い、どのコードをプロンプトに入れるかをASTベースで判断する。要するに、巨大なリポジトリを丸ごと投げ込むのではなく、必要な断片だけを正確に拾ってモデルに見せる考え方だ。HNの議論もここに集まった。強かったのはモデル自体ではなく、モデルに何を見せるかを決める層ではないかという見方だ。
当然ながら懐疑も早かった。コメントでは、Diracをagent harnessとして見るべきか、fine-tuning込みの成果なのか、あるいは両方なのかという問いが出た。さらに、この改善がGemini flashに強く依存するのか、Qwenのような別モデルでも編集戦略の優位が残るのかを確かめたいという声もあった。こうした反応は健全だ。ただ、Dirac側が少なくとも具体的なメカニズムを示している点は大きい。anchored diff、ASTベースの取得、小さいcontext維持という技術的な筋道がある。
このスレッドで見えたのは、coding agentの評価軸が少し変わってきたことだ。HNはもう「どのモデルが一番賢いか」だけでは満足しない。無駄なトークンをどれだけ減らせるか、必要なファイルをどれだけ正確に拾えるか、大きなコードベースで整合性をどれだけ保てるか。そこが競争の本丸になりつつある。Diracが刺さったのは、その変化をかなり分かりやすく見せたからだ。
結局、今回の話題性は首位そのものよりも設計思想にある。詰め込みを減らし、探索を絞り、編集を鋭くする。HNはそのやり方が単発のleaderboardではなく、別モデルや別リポジトリでも通用するかを見ている。少なくとも今回の反応は、open agent競争の見どころが少し深くなったことを示している。
Related Articles
HN jumped straight to a sharper question than the score itself: was this a model win or a harness win? Dirac’s 65.2% TerminalBench run turned into a broader argument about context curation, AST-guided search, and why coding agents still live or die on tooling decisions.
HN latched onto a practical shift in coding evals: correctness is no longer enough if the patch would fail human review.
At Google I/O 2026 on May 19, Google unveiled Gemini 3.5 Flash—which outperforms Gemini 3.1 Pro across all benchmarks at 4× the speed and half the API cost—alongside Gemini Spark, a 24/7 personal AI agent that works in the background and can be reached directly via Gmail. Spark enters beta for Google AI Ultra subscribers in the US starting the week of May 26.