LiteCoder、Terminal Bench Pro 31.5%でコードagentを押し上げた

Original: Releasing LiteCoder-Terminal-SFT View original →

Read in other languages: 한국어English
LLM Apr 15, 2026 By Insights AI 1 min read 1 views Source

terminal agentが今も最も苦しんでいるのは、結局データだ。LiteCoderは今回、checkpointだけを投げる形ではなく、学習素材と実行環境までまとめて出してきた。2026-04-13公開のHugging Face community articleであるLiteCoder-Terminal-SFTでは、model本体に加えて11,255 trajectoriesの完全な学習データと、フルのtest caseを備えた602 standard Harbor terminal environmentsが公開された。この組み合わせが効く。weightsだけを出すチームは多いが、他の研究者や開発チームがそのまま再現し、負荷をかけ、拡張できるexecutable environmentまで揃える例はまだ少ない。

今回の公開物はLiteCoder-Terminal-30b-a3b-sftとLiteCoder-Terminal-4b-sftの2モデル、さらに複数のdatasetで構成される。記事によれば、新しいtraining pipelineはTerminus-only構成を越え、Claude CodeとOpenHandsのtrajectoryも取り込んだ。ここは重要だ。terminal agentは、どのscaffoldの上で動くかによって壊れ方がかなり変わるからだ。LiteCoderは最終datasetが10 task categoriesをまたぎ、trajectoryあたり平均27.4 turnsだと書く。比率はTerminus-2が86.6%、OpenHandsが7.1%、Claude Codeが6.3%。単一harness向けに詰めるのではなく、cross-scaffold generalizationを狙った構成と見ていい。

最も目を引くのはやはりbenchmark表だ。Terminal Bench 1.0で30B modelはPass@1 24.38%を記録し、Qwen3-30B-A3B-Nex-N1の18.44%を上回り、LiteCoder previewの16.56%からも大きく伸びた。Terminal Bench 2.0では12.36%でQwen3-30B-A3B-Nex-N1に並び、previewの6.18%からほぼ倍増している。Terminal Bench Proでは同じ30B modelがPass@1 31.5%に達し、previewの22.0%を超え、Qwen3-30B-A3B-Nex-N1の21.0%も上回る。4B modelも見逃せない。LiteCoderはTerminal Bench Proで15.5%を記録し、Qwen3-4B-Instructの3.5%との差はかなり大きい。

今回の公開にはもう一つの筋がある。LiteCoderはterminal state prediction向けのexploratory dataも出している。チームは、real-time terminal interactionがreinforcement learningの観点では依然として計算コストが高すぎ、より良いworld modelingがその詰まりを和らげる可能性があるとみる。一方で、4B級modelは環境ダイナミクスを模擬するとすぐにずれ、state prediction hallucinationを起こすとも書く。この点は、coding agentの進歩が単なるtool callingや長いcontext windowだけでは説明できないことを示している。今回の公開が一時的なbenchmark話題で終わらないなら、それは公開されたenvironmentとtrajectory dataが、他のチームも含めて、荒れたshell sessionをちゃんと生き延びるagentを鍛える土台になるからだ。

Share: Long

Related Articles

LLM sources.twitter Apr 5, 2026 1 min read

Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer 2 checkpointを5時間ごとに出荷できると述べた。3月27日のtechnical reportでは、Kimi K2.5上のcontinued pretrainingとrealistic Cursor sessionでの大規模RLを組み合わせ、CursorBenchで61.3を記録したと説明している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.