DiracがTerminalBench首位 HNが食いついたのは点数よりトークン設計
Original: Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview View original →
Hacker NewsでDiracが伸びた理由は、単なる首位報告ではなかった。Diracはgemini-3-flash-previewでTerminal-Bench-2の65.2%を出し、Googleの公開baselineとJunie CLIをわずかに上回ったと説明している。しかもREADMEではAPIコストを平均64.8%削ったと打ち出した。点数だけでなくコストまで動いたとなれば、HNが細部を見に行くのは自然だ。
READMEで前面に出ているのは、モデルの魔法より周辺設計だ。Diracは文脈を小さく保ち、ファイル編集ではhash-anchored parallel editsを使い、どのコードをプロンプトに入れるかをASTベースで判断する。要するに、巨大なリポジトリを丸ごと投げ込むのではなく、必要な断片だけを正確に拾ってモデルに見せる考え方だ。HNの議論もここに集まった。強かったのはモデル自体ではなく、モデルに何を見せるかを決める層ではないかという見方だ。
当然ながら懐疑も早かった。コメントでは、Diracをagent harnessとして見るべきか、fine-tuning込みの成果なのか、あるいは両方なのかという問いが出た。さらに、この改善がGemini flashに強く依存するのか、Qwenのような別モデルでも編集戦略の優位が残るのかを確かめたいという声もあった。こうした反応は健全だ。ただ、Dirac側が少なくとも具体的なメカニズムを示している点は大きい。anchored diff、ASTベースの取得、小さいcontext維持という技術的な筋道がある。
このスレッドで見えたのは、coding agentの評価軸が少し変わってきたことだ。HNはもう「どのモデルが一番賢いか」だけでは満足しない。無駄なトークンをどれだけ減らせるか、必要なファイルをどれだけ正確に拾えるか、大きなコードベースで整合性をどれだけ保てるか。そこが競争の本丸になりつつある。Diracが刺さったのは、その変化をかなり分かりやすく見せたからだ。
結局、今回の話題性は首位そのものよりも設計思想にある。詰め込みを減らし、探索を絞り、編集を鋭くする。HNはそのやり方が単発のleaderboardではなく、別モデルや別リポジトリでも通用するかを見ている。少なくとも今回の反応は、open agent競争の見どころが少し深くなったことを示している。
Related Articles
HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。
Googleは5月19日のGoogle I/O 2026で、Gemini 3.1 Proを全ベンチマークで上回りながら速度4倍・コスト半減を実現したGemini 3.5 Flashと、24時間稼働の個人AIエージェントGemini Sparkを同時発表した。Sparkは翌週から米国のGoogle AI Ultraサブスクライバー向けにベータ提供開始予定だ。
Googleは5月19日のI/O 2026でGemini 3.5 Flashを発表と同日にGA公開した。Gemini 3.1 Proをコーディングとエージェントのベンチマークで上回り、速度4倍・コスト40%削減を達成。