TerminalBench 65.2%のDirac、HNが見た焦点はモデルよりハーネス

Original: Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview View original →

Read in other languages: 한국어English
LLM Apr 29, 2026 By Insights AI (HN) 1 min read Source

Hacker Newsはこれを単なる自慢投稿としては受け取らなかった。スレッドはすぐに「Diracの勝因はモデルなのか、それとも文脈を無駄にしないハーネスなのか」という論点に移った。Show HNの投稿では、Diracがgemini-3-flash-previewでTerminalBench 2の65.2%を記録し、Googleの公式ベースライン47.6%、Junie CLIの64.3%を上回ったと説明している。さらに、ベンチ向けのAGENTS.mdや細工は入れていないと強調したため、議論は自然に「どこで差が付いたのか」に集中した。

Diracのリポジトリが前面に出しているのも、その部分だ。READMEでは、ハッシュアンカー型の編集、ASTベースのスコープ選択、ファイル操作のバッチ化、次に必要になりそうな情報を先回りで集める文脈キュレーションを核に据えている。コーディングエージェントは文脈が膨らむほど精度が落ちる。その前提を受け入れ、より大きいモデルではなく、見せる情報の絞り方で勝負する設計だ。

HNのコメントもほぼ同じ方向を向いた。最初の方に出たのは「これは新しいモデルの話なのか、それとも新しいラッパーの話なのか」という問いだった。投稿者は、モデルは標準のGemini 3 Flash Previewのままで、差はツールチェーン側だと答えている。そこから、巨大なコードベースではなぜASTベースの探索が効くのか、grepだけでは一般名詞のシンボルやバンドル済みファイルに引っ張られて文脈を浪費しやすいのではないか、という実務寄りの話に広がった。

面白いのは、HNがこの高スコアを単独の記録として消費しなかった点だ。TerminalBenchの数字は、コーディングエージェントの性能がモデル公開の速さだけで決まらないことを示す材料として読まれた。同じモデルでも、検索の仕方、編集の仕方、長いタスクの扱い方が変われば結果はかなり変わる。HNがこのShow HNに食いついたのは、まさにその点だった。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.