TerminalBench 1위 Dirac, HN이 점수보다 본 건 토큰 절약과 편집 방식

Hacker News가 Dirac에 반응한 이유는 단순한 1위 캡처가 아니었다. Dirac는 gemini-3-flash-preview로 Terminal-Bench-2에서 65.2%를 기록했고, Google 공개 baseline과 Junie CLI를 근소하게 넘겼다고 내세웠다. 더 크게 꽂힌 대목은 비용이다. README는 API 비용을 평균 64.8% 줄였다고 적는다. 점수와 비용이 동시에 움직였다는 주장이라 HN 특유의 검증 본능이 바로 붙었다.

프로젝트 README를 보면 설계 방향이 분명하다. Dirac는 문맥을 작게 유지하고, 파일 수정에는 hash-anchored parallel edit를 쓰고, 어떤 코드를 프롬프트에 넣을지 AST를 보고 고른다. 결국 모델에게 저장소 전체를 들이붓지 않고, 필요한 코드만 정확히 꺼내서 보여주겠다는 접근이다. HN에서도 바로 이 지점이 핵심으로 읽혔다. 커뮤니티 토론은 모델 자체보다도, 모델이 무엇을 보게 만드느냐가 성능을 갈랐다는 쪽으로 기울었다.

의심도 빠르게 붙었다. 가장 눈에 띈 질문은 이것이 agent harness인지, fine-tuning 결과인지, 아니면 둘 다인지였다. 또 다른 질문은 재현성이다. 지금 성과가 Gemini flash에 묶인 결과인지, Qwen 같은 다른 모델로도 편집 전략의 이점이 살아남는지 따져 묻는 반응이 이어졌다. 이런 반응은 자연스럽다. 다만 Dirac 쪽은 적어도 허풍보다 구조를 먼저 내놓았다. anchored diff, AST 기반 검색, 작은 context 유지라는 구체적 설명이 있다.

이 스레드가 보여준 더 큰 변화도 있다. HN은 이제 coding agent를 볼 때 “어느 모델이 더 똑똑한가”만 묻지 않는다. 프롬프트를 얼마나 덜 낭비하는지, 파일을 얼마나 정밀하게 집는지, 큰 저장소에서 coherence를 얼마나 오래 유지하는지가 더 중요한 경쟁축으로 올라오고 있다. Dirac가 화제가 된 이유도 그 흐름과 맞닿아 있다.

정리하면 Dirac의 포인트는 leaderboard 1위 자체보다 open agent 설계의 방향을 또렷하게 보여줬다는 데 있다. 덜 집어넣고, 더 정확히 찾고, 수정은 더 날카롭게 한다. HN은 그 설계가 다른 모델과 다른 코드베이스에서도 버틸 수 있는지 지켜보는 중이다. 이번 반응은 적어도 기준이 바뀌고 있다는 신호다.

TerminalBench 1위 Dirac, HN이 점수보다 본 건 토큰 절약과 편집 방식

Related Articles

FrontierCode, “테스트 통과”보다 “merge할 코드인가”를 묻는 평가

Google I/O 2026: Gemini 3.5 Flash 공개 — 플래그십 성능에 Flash 속도

Google I/O 2026: 개인 AI 에이전트 Gemini Spark 등장과 Gemini 3.5 Flash 성능 공개

Related Articles

FrontierCode, “테스트 통과”보다 “merge할 코드인가”를 묻는 평가

Google I/O 2026: Gemini 3.5 Flash 공개 — 플래그십 성능에 Flash 속도
LLM May 22, 2026 1 min read

Google I/O 2026: 개인 AI 에이전트 Gemini Spark 등장과 Gemini 3.5 Flash 성능 공개
LLM May 23, 2026 1 min read