LiteCoder, Terminal Bench Pro 31.5%로 코드 agent를 끌어올렸다

Original: Releasing LiteCoder-Terminal-SFT View original →

Read in other languages: English日本語
LLM Apr 15, 2026 By Insights AI 1 min read 4 views Source

terminal agent가 아직도 가장 많이 부딪히는 문제는 데이터다. LiteCoder는 이번에 체크포인트 하나만 던지는 방식 대신, 학습 재료와 실행 환경까지 함께 내놓는 쪽을 택했다. 2026-04-13 Hugging Face community article로 올라온 LiteCoder-Terminal-SFT 글에서 팀은 모델과 함께 11,255 trajectories 전체 학습 데이터와 완전한 테스트 케이스를 갖춘 602 standard Harbor terminal environments를 공개했다. 이 조합이 중요하다. 많은 팀이 가중치는 공개해도, 다른 연구자와 개발팀이 그대로 재현하고 스트레스 테스트할 수 있는 executable environment까지 같이 푸는 경우는 드물다.

공개물은 LiteCoder-Terminal-30b-a3b-sft와 LiteCoder-Terminal-4b-sft 두 모델, 그리고 여러 dataset으로 구성된다. 글에 따르면 새 학습 파이프라인은 Terminus-only 구성을 넘어서 Claude Code와 OpenHands trajectory까지 흡수했다. 이 점은 꽤 중요하다. terminal agent는 어떤 scaffold 위에서 움직이느냐에 따라 실패 양상이 크게 달라지기 때문이다. LiteCoder는 최종 dataset이 10개 task category를 포함하고 trajectory당 평균 27.4 turns를 갖는다고 적었다. 구성 비율은 Terminus-2 86.6%, OpenHands 7.1%, Claude Code 6.3%다. 단일 harness에 맞춘 과적합보다 cross-scaffold generalization 쪽을 노린 설계라고 읽힌다.

가장 주목받을 부분은 역시 benchmark 표다. Terminal Bench 1.0에서 30B 모델은 Pass@1 24.38%를 기록해 Qwen3-30B-A3B-Nex-N1의 18.44%를 앞섰고, LiteCoder preview의 16.56%보다도 크게 높다. Terminal Bench 2.0에서는 12.36%로 Qwen3-30B-A3B-Nex-N1과 같고, preview 6.18% 대비 거의 두 배다. Terminal Bench Pro에서는 같은 30B 모델이 Pass@1 31.5%를 기록해 preview의 22.0%를 넘어섰고, Qwen3-30B-A3B-Nex-N1의 21.0%보다도 높다. 4B 모델도 눈에 띈다. LiteCoder는 Terminal Bench Pro에서 15.5%를 기록했고, Qwen3-4B-Instruct의 3.5%와 비교하면 작은 모델에서도 꽤 큰 격차가 난다.

이번 공개에는 또 다른 층위가 있다. LiteCoder는 terminal state prediction용 exploratory data도 함께 내놨다. 팀은 실시간 terminal interaction이 reinforcement learning 관점에서 여전히 계산 비용이 너무 크고, 더 나은 world modeling이 이 병목을 줄일 수 있다고 본다. 동시에 4B급 모델은 환경 동역학을 시뮬레이션할 때 빠르게 흔들리며 state prediction hallucination을 보인다고 적었다. 이 지점은 coding agent 발전이 단순한 tool calling이나 긴 context window 문제만이 아니라는 사실을 다시 드러낸다. 이 공개가 일회성 benchmark 화제에 그치지 않으려면, 결국 공개된 환경과 trajectory 데이터가 다른 팀까지 포함해 더 오래 버티는 shell agent를 훈련시키는 토대가 되어야 한다.

Share: Long

Related Articles

LLM sources.twitter Apr 5, 2026 1 min read

Cursor는 2026년 3월 26일 real-time RL을 통해 5시간마다 개선된 checkpoint를 배포할 수 있다고 밝혔다. Cursor의 3월 27일 technical report는 Composer 2가 Kimi K2.5 기반 continued pretraining과 realistic Cursor session에서의 대규모 RL을 결합하며, CursorBench 61.3, SWE-bench Multilingual 73.7, Terminal-Bench 61.7을 기록했다고 설명한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.