LiteCoder, Terminal Bench Pro 31.5%로 코드 agent를 끌어올렸다
Original: Releasing LiteCoder-Terminal-SFT View original →
terminal agent가 아직도 가장 많이 부딪히는 문제는 데이터다. LiteCoder는 이번에 체크포인트 하나만 던지는 방식 대신, 학습 재료와 실행 환경까지 함께 내놓는 쪽을 택했다. 2026-04-13 Hugging Face community article로 올라온 LiteCoder-Terminal-SFT 글에서 팀은 모델과 함께 11,255 trajectories 전체 학습 데이터와 완전한 테스트 케이스를 갖춘 602 standard Harbor terminal environments를 공개했다. 이 조합이 중요하다. 많은 팀이 가중치는 공개해도, 다른 연구자와 개발팀이 그대로 재현하고 스트레스 테스트할 수 있는 executable environment까지 같이 푸는 경우는 드물다.
공개물은 LiteCoder-Terminal-30b-a3b-sft와 LiteCoder-Terminal-4b-sft 두 모델, 그리고 여러 dataset으로 구성된다. 글에 따르면 새 학습 파이프라인은 Terminus-only 구성을 넘어서 Claude Code와 OpenHands trajectory까지 흡수했다. 이 점은 꽤 중요하다. terminal agent는 어떤 scaffold 위에서 움직이느냐에 따라 실패 양상이 크게 달라지기 때문이다. LiteCoder는 최종 dataset이 10개 task category를 포함하고 trajectory당 평균 27.4 turns를 갖는다고 적었다. 구성 비율은 Terminus-2 86.6%, OpenHands 7.1%, Claude Code 6.3%다. 단일 harness에 맞춘 과적합보다 cross-scaffold generalization 쪽을 노린 설계라고 읽힌다.
가장 주목받을 부분은 역시 benchmark 표다. Terminal Bench 1.0에서 30B 모델은 Pass@1 24.38%를 기록해 Qwen3-30B-A3B-Nex-N1의 18.44%를 앞섰고, LiteCoder preview의 16.56%보다도 크게 높다. Terminal Bench 2.0에서는 12.36%로 Qwen3-30B-A3B-Nex-N1과 같고, preview 6.18% 대비 거의 두 배다. Terminal Bench Pro에서는 같은 30B 모델이 Pass@1 31.5%를 기록해 preview의 22.0%를 넘어섰고, Qwen3-30B-A3B-Nex-N1의 21.0%보다도 높다. 4B 모델도 눈에 띈다. LiteCoder는 Terminal Bench Pro에서 15.5%를 기록했고, Qwen3-4B-Instruct의 3.5%와 비교하면 작은 모델에서도 꽤 큰 격차가 난다.
이번 공개에는 또 다른 층위가 있다. LiteCoder는 terminal state prediction용 exploratory data도 함께 내놨다. 팀은 실시간 terminal interaction이 reinforcement learning 관점에서 여전히 계산 비용이 너무 크고, 더 나은 world modeling이 이 병목을 줄일 수 있다고 본다. 동시에 4B급 모델은 환경 동역학을 시뮬레이션할 때 빠르게 흔들리며 state prediction hallucination을 보인다고 적었다. 이 지점은 coding agent 발전이 단순한 tool calling이나 긴 context window 문제만이 아니라는 사실을 다시 드러낸다. 이 공개가 일회성 benchmark 화제에 그치지 않으려면, 결국 공개된 환경과 trajectory 데이터가 다른 팀까지 포함해 더 오래 버티는 shell agent를 훈련시키는 토대가 되어야 한다.
Related Articles
코딩 모델 평가가 정답률에서 코드 리뷰 품질로 옮겨가고 있다는 점에 HN 관심이 모였다. FrontierCode는 PR을 실제 maintainer가 받아들일지에 초점을 둔다.
2026년 3월 20일 Hacker News에서 OpenCode가 크게 주목받으며, provider-agnostic model support와 TUI, build/plan mode를 갖춘 오픈소스 coding agent 수요를 드러냈다.
Cursor는 2026년 3월 26일 real-time RL을 통해 5시간마다 개선된 checkpoint를 배포할 수 있다고 밝혔다. Cursor의 3월 27일 technical report는 Composer 2가 Kimi K2.5 기반 continued pretraining과 realistic Cursor session에서의 대규모 RL을 결합하며, CursorBench 61.3, SWE-bench Multilingual 73.7, Terminal-Bench 61.7을 기록했다고 설명한다.