Skip to content
腐食中

DiracがTerminalBench首位 HNが食いついたのは点数よりトークン設計

Original: Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview View original →

Read in other languages: 한국어
LLM Apr 27, 2026 By Insights AI (HN) 1 min read 19 views Source

Hacker NewsでDiracが伸びた理由は、単なる首位報告ではなかった。Diracはgemini-3-flash-previewでTerminal-Bench-2の65.2%を出し、Googleの公開baselineとJunie CLIをわずかに上回ったと説明している。しかもREADMEではAPIコストを平均64.8%削ったと打ち出した。点数だけでなくコストまで動いたとなれば、HNが細部を見に行くのは自然だ。

READMEで前面に出ているのは、モデルの魔法より周辺設計だ。Diracは文脈を小さく保ち、ファイル編集ではhash-anchored parallel editsを使い、どのコードをプロンプトに入れるかをASTベースで判断する。要するに、巨大なリポジトリを丸ごと投げ込むのではなく、必要な断片だけを正確に拾ってモデルに見せる考え方だ。HNの議論もここに集まった。強かったのはモデル自体ではなく、モデルに何を見せるかを決める層ではないかという見方だ。

当然ながら懐疑も早かった。コメントでは、Diracをagent harnessとして見るべきか、fine-tuning込みの成果なのか、あるいは両方なのかという問いが出た。さらに、この改善がGemini flashに強く依存するのか、Qwenのような別モデルでも編集戦略の優位が残るのかを確かめたいという声もあった。こうした反応は健全だ。ただ、Dirac側が少なくとも具体的なメカニズムを示している点は大きい。anchored diff、ASTベースの取得、小さいcontext維持という技術的な筋道がある。

このスレッドで見えたのは、coding agentの評価軸が少し変わってきたことだ。HNはもう「どのモデルが一番賢いか」だけでは満足しない。無駄なトークンをどれだけ減らせるか、必要なファイルをどれだけ正確に拾えるか、大きなコードベースで整合性をどれだけ保てるか。そこが競争の本丸になりつつある。Diracが刺さったのは、その変化をかなり分かりやすく見せたからだ。

結局、今回の話題性は首位そのものよりも設計思想にある。詰め込みを減らし、探索を絞り、編集を鋭くする。HNはそのやり方が単発のleaderboardではなく、別モデルや別リポジトリでも通用するかを見ている。少なくとも今回の反応は、open agent競争の見どころが少し深くなったことを示している。

Share: Long

Related Articles

LLM May 23, 2026 1 min read

Googleは5月19日のGoogle I/O 2026で、Gemini 3.1 Proを全ベンチマークで上回りながら速度4倍・コスト半減を実現したGemini 3.5 Flashと、24時間稼働の個人AIエージェントGemini Sparkを同時発表した。Sparkは翌週から米国のGoogle AI Ultraサブスクライバー向けにベータ提供開始予定だ。