LiteCoder、Terminal Bench Pro 31.5%でコードagentを押し上げた

terminal agentが今も最も苦しんでいるのは、結局データだ。LiteCoderは今回、checkpointだけを投げる形ではなく、学習素材と実行環境までまとめて出してきた。2026-04-13公開のHugging Face community articleであるLiteCoder-Terminal-SFTでは、model本体に加えて11,255 trajectoriesの完全な学習データと、フルのtest caseを備えた602 standard Harbor terminal environmentsが公開された。この組み合わせが効く。weightsだけを出すチームは多いが、他の研究者や開発チームがそのまま再現し、負荷をかけ、拡張できるexecutable environmentまで揃える例はまだ少ない。

今回の公開物はLiteCoder-Terminal-30b-a3b-sftとLiteCoder-Terminal-4b-sftの2モデル、さらに複数のdatasetで構成される。記事によれば、新しいtraining pipelineはTerminus-only構成を越え、Claude CodeとOpenHandsのtrajectoryも取り込んだ。ここは重要だ。terminal agentは、どのscaffoldの上で動くかによって壊れ方がかなり変わるからだ。LiteCoderは最終datasetが10 task categoriesをまたぎ、trajectoryあたり平均27.4 turnsだと書く。比率はTerminus-2が86.6%、OpenHandsが7.1%、Claude Codeが6.3%。単一harness向けに詰めるのではなく、cross-scaffold generalizationを狙った構成と見ていい。

最も目を引くのはやはりbenchmark表だ。Terminal Bench 1.0で30B modelはPass@1 24.38%を記録し、Qwen3-30B-A3B-Nex-N1の18.44%を上回り、LiteCoder previewの16.56%からも大きく伸びた。Terminal Bench 2.0では12.36%でQwen3-30B-A3B-Nex-N1に並び、previewの6.18%からほぼ倍増している。Terminal Bench Proでは同じ30B modelがPass@1 31.5%に達し、previewの22.0%を超え、Qwen3-30B-A3B-Nex-N1の21.0%も上回る。4B modelも見逃せない。LiteCoderはTerminal Bench Proで15.5%を記録し、Qwen3-4B-Instructの3.5%との差はかなり大きい。

今回の公開にはもう一つの筋がある。LiteCoderはterminal state prediction向けのexploratory dataも出している。チームは、real-time terminal interactionがreinforcement learningの観点では依然として計算コストが高すぎ、より良いworld modelingがその詰まりを和らげる可能性があるとみる。一方で、4B級modelは環境ダイナミクスを模擬するとすぐにずれ、state prediction hallucinationを起こすとも書く。この点は、coding agentの進歩が単なるtool callingや長いcontext windowだけでは説明できないことを示している。今回の公開が一時的なbenchmark話題で終わらないなら、それは公開されたenvironmentとtrajectory dataが、他のチームも含めて、荒れたshell sessionをちゃんと生き延びるagentを鍛える土台になるからだ。

LiteCoder、Terminal Bench Pro 31.5%でコードagentを押し上げた

Related Articles

145件のcoding evalで、r/LocalLLaMAはKimi K2.6とOpus 4.7を検証した

r/LocalLLaMAが追うApple Silicon向けDFlash: MLXでlossless speculative decodingを4.1x

Cursor、継続事前学習から実運用RLまで Composer 2 の学習スタックを公開

Comments (0)

Leave a Comment

Related Articles

145件のcoding evalで、r/LocalLLaMAはKimi K2.6とOpus 4.7を検証した
r/LocalLLaMAが反応したのはleaderboardの順位だけではなく、Opus 4.7のscoreと実使用感のズレ、Kimi K2.6のcoding agent適性だった。

r/LocalLLaMAが追うApple Silicon向けDFlash: MLXでlossless speculative decodingを4.1x

Cursor、継続事前学習から実運用RLまで Composer 2 の学習スタックを公開
LLM sources.twitter Apr 5, 2026 1 min read