DiracがTerminalBench首位 HNが食いついたのは点数よりトークン設計
Original: Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview View original →
Hacker NewsでDiracが伸びた理由は、単なる首位報告ではなかった。Diracはgemini-3-flash-previewでTerminal-Bench-2の65.2%を出し、Googleの公開baselineとJunie CLIをわずかに上回ったと説明している。しかもREADMEではAPIコストを平均64.8%削ったと打ち出した。点数だけでなくコストまで動いたとなれば、HNが細部を見に行くのは自然だ。
READMEで前面に出ているのは、モデルの魔法より周辺設計だ。Diracは文脈を小さく保ち、ファイル編集ではhash-anchored parallel editsを使い、どのコードをプロンプトに入れるかをASTベースで判断する。要するに、巨大なリポジトリを丸ごと投げ込むのではなく、必要な断片だけを正確に拾ってモデルに見せる考え方だ。HNの議論もここに集まった。強かったのはモデル自体ではなく、モデルに何を見せるかを決める層ではないかという見方だ。
当然ながら懐疑も早かった。コメントでは、Diracをagent harnessとして見るべきか、fine-tuning込みの成果なのか、あるいは両方なのかという問いが出た。さらに、この改善がGemini flashに強く依存するのか、Qwenのような別モデルでも編集戦略の優位が残るのかを確かめたいという声もあった。こうした反応は健全だ。ただ、Dirac側が少なくとも具体的なメカニズムを示している点は大きい。anchored diff、ASTベースの取得、小さいcontext維持という技術的な筋道がある。
このスレッドで見えたのは、coding agentの評価軸が少し変わってきたことだ。HNはもう「どのモデルが一番賢いか」だけでは満足しない。無駄なトークンをどれだけ減らせるか、必要なファイルをどれだけ正確に拾えるか、大きなコードベースで整合性をどれだけ保てるか。そこが競争の本丸になりつつある。Diracが刺さったのは、その変化をかなり分かりやすく見せたからだ。
結局、今回の話題性は首位そのものよりも設計思想にある。詰め込みを減らし、探索を絞り、編集を鋭くする。HNはそのやり方が単発のleaderboardではなく、別モデルや別リポジトリでも通用するかを見ている。少なくとも今回の反応は、open agent競争の見どころが少し深くなったことを示している。
Related Articles
r/LocalLLaMAがこの投稿を押し上げたのは、“trust me bro”な体験談の中に8-bit、64k context、OpenCode、Android debuggingという実使用条件が入っていたからだ。
HNが食いついたのはモデル順位よりも、ちいさな修正依頼が巨大なdiffに化ける現場感だった。コーディングモデルの「過剰編集」を測る記事が、レビュー負荷の正体をかなり具体的に示した。
GitHubは、agentic workflowが従来の個人向けplanのcompute前提を超えたとして、Copilot Pro、Pro+、Studentの新規登録を止めた。重要なのは、premium requestとは別にtokenベースのsession limitとweekly limitが開発体験を左右し始めた点だ。
Comments (0)
No comments yet. Be the first to comment!