LiteCoder, Terminal Bench Pro 31.5%로 코드 agent를 끌어올렸다

terminal agent가 아직도 가장 많이 부딪히는 문제는 데이터다. LiteCoder는 이번에 체크포인트 하나만 던지는 방식 대신, 학습 재료와 실행 환경까지 함께 내놓는 쪽을 택했다. 2026-04-13 Hugging Face community article로 올라온 LiteCoder-Terminal-SFT 글에서 팀은 모델과 함께 11,255 trajectories 전체 학습 데이터와 완전한 테스트 케이스를 갖춘 602 standard Harbor terminal environments를 공개했다. 이 조합이 중요하다. 많은 팀이 가중치는 공개해도, 다른 연구자와 개발팀이 그대로 재현하고 스트레스 테스트할 수 있는 executable environment까지 같이 푸는 경우는 드물다.

공개물은 LiteCoder-Terminal-30b-a3b-sft와 LiteCoder-Terminal-4b-sft 두 모델, 그리고 여러 dataset으로 구성된다. 글에 따르면 새 학습 파이프라인은 Terminus-only 구성을 넘어서 Claude Code와 OpenHands trajectory까지 흡수했다. 이 점은 꽤 중요하다. terminal agent는 어떤 scaffold 위에서 움직이느냐에 따라 실패 양상이 크게 달라지기 때문이다. LiteCoder는 최종 dataset이 10개 task category를 포함하고 trajectory당 평균 27.4 turns를 갖는다고 적었다. 구성 비율은 Terminus-2 86.6%, OpenHands 7.1%, Claude Code 6.3%다. 단일 harness에 맞춘 과적합보다 cross-scaffold generalization 쪽을 노린 설계라고 읽힌다.

가장 주목받을 부분은 역시 benchmark 표다. Terminal Bench 1.0에서 30B 모델은 Pass@1 24.38%를 기록해 Qwen3-30B-A3B-Nex-N1의 18.44%를 앞섰고, LiteCoder preview의 16.56%보다도 크게 높다. Terminal Bench 2.0에서는 12.36%로 Qwen3-30B-A3B-Nex-N1과 같고, preview 6.18% 대비 거의 두 배다. Terminal Bench Pro에서는 같은 30B 모델이 Pass@1 31.5%를 기록해 preview의 22.0%를 넘어섰고, Qwen3-30B-A3B-Nex-N1의 21.0%보다도 높다. 4B 모델도 눈에 띈다. LiteCoder는 Terminal Bench Pro에서 15.5%를 기록했고, Qwen3-4B-Instruct의 3.5%와 비교하면 작은 모델에서도 꽤 큰 격차가 난다.

이번 공개에는 또 다른 층위가 있다. LiteCoder는 terminal state prediction용 exploratory data도 함께 내놨다. 팀은 실시간 terminal interaction이 reinforcement learning 관점에서 여전히 계산 비용이 너무 크고, 더 나은 world modeling이 이 병목을 줄일 수 있다고 본다. 동시에 4B급 모델은 환경 동역학을 시뮬레이션할 때 빠르게 흔들리며 state prediction hallucination을 보인다고 적었다. 이 지점은 coding agent 발전이 단순한 tool calling이나 긴 context window 문제만이 아니라는 사실을 다시 드러낸다. 이 공개가 일회성 benchmark 화제에 그치지 않으려면, 결국 공개된 환경과 trajectory 데이터가 다른 팀까지 포함해 더 오래 버티는 shell agent를 훈련시키는 토대가 되어야 한다.

LiteCoder, Terminal Bench Pro 31.5%로 코드 agent를 끌어올렸다

Related Articles

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델

Ornith-1.0, agentic coding open model에서 보는 새 경쟁축

SWE-Bench Pro 30% 결함, OpenAI가 coding benchmark 권고 철회

Related Articles

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델
일상형 고성능 모델 경쟁의 초점이 최고점보다 비용당 성능으로 옮겨갔다. Claude Opus 5는 Fable 5에 가까운 코딩·지식 작업 성능을 절반 가격으로 내세우며, API 가격은 입력 $5/M·출력 $25/M 토큰으로 책정됐다.

Ornith-1.0, agentic coding open model에서 보는 새 경쟁축
LLM Hacker News Jun 30, 2026 1 min read

SWE-Bench Pro 30% 결함, OpenAI가 coding benchmark 권고 철회
LLM X/Twitter Jul 10, 2026 1 min read