LiteCoder、Terminal Bench Pro 31.5%でコードagentを押し上げた
Original: Releasing LiteCoder-Terminal-SFT View original →
terminal agentが今も最も苦しんでいるのは、結局データだ。LiteCoderは今回、checkpointだけを投げる形ではなく、学習素材と実行環境までまとめて出してきた。2026-04-13公開のHugging Face community articleであるLiteCoder-Terminal-SFTでは、model本体に加えて11,255 trajectoriesの完全な学習データと、フルのtest caseを備えた602 standard Harbor terminal environmentsが公開された。この組み合わせが効く。weightsだけを出すチームは多いが、他の研究者や開発チームがそのまま再現し、負荷をかけ、拡張できるexecutable environmentまで揃える例はまだ少ない。
今回の公開物はLiteCoder-Terminal-30b-a3b-sftとLiteCoder-Terminal-4b-sftの2モデル、さらに複数のdatasetで構成される。記事によれば、新しいtraining pipelineはTerminus-only構成を越え、Claude CodeとOpenHandsのtrajectoryも取り込んだ。ここは重要だ。terminal agentは、どのscaffoldの上で動くかによって壊れ方がかなり変わるからだ。LiteCoderは最終datasetが10 task categoriesをまたぎ、trajectoryあたり平均27.4 turnsだと書く。比率はTerminus-2が86.6%、OpenHandsが7.1%、Claude Codeが6.3%。単一harness向けに詰めるのではなく、cross-scaffold generalizationを狙った構成と見ていい。
最も目を引くのはやはりbenchmark表だ。Terminal Bench 1.0で30B modelはPass@1 24.38%を記録し、Qwen3-30B-A3B-Nex-N1の18.44%を上回り、LiteCoder previewの16.56%からも大きく伸びた。Terminal Bench 2.0では12.36%でQwen3-30B-A3B-Nex-N1に並び、previewの6.18%からほぼ倍増している。Terminal Bench Proでは同じ30B modelがPass@1 31.5%に達し、previewの22.0%を超え、Qwen3-30B-A3B-Nex-N1の21.0%も上回る。4B modelも見逃せない。LiteCoderはTerminal Bench Proで15.5%を記録し、Qwen3-4B-Instructの3.5%との差はかなり大きい。
今回の公開にはもう一つの筋がある。LiteCoderはterminal state prediction向けのexploratory dataも出している。チームは、real-time terminal interactionがreinforcement learningの観点では依然として計算コストが高すぎ、より良いworld modelingがその詰まりを和らげる可能性があるとみる。一方で、4B級modelは環境ダイナミクスを模擬するとすぐにずれ、state prediction hallucinationを起こすとも書く。この点は、coding agentの進歩が単なるtool callingや長いcontext windowだけでは説明できないことを示している。今回の公開が一時的なbenchmark話題で終わらないなら、それは公開されたenvironmentとtrajectory dataが、他のチームも含めて、荒れたshell sessionをちゃんと生き延びるagentを鍛える土台になるからだ。
Related Articles
r/LocalLLaMAが反応したのはleaderboardの順位だけではなく、Opus 4.7のscoreと実使用感のズレ、Kimi K2.6のcoding agent適性だった。
r/LocalLLaMAの新しい投稿は、M5 MaxとMLX 0.31.1上でのDFlash speculative decodingを公開し、Qwen3.5-9Bで127.07 tok/s、4.13xのspeedupを報告した。重要なのは派手な数字より、再現条件とbandwidth bottleneckの解釈が具体的な点だ。
Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer 2 checkpointを5時間ごとに出荷できると述べた。3月27日のtechnical reportでは、Kimi K2.5上のcontinued pretrainingとrealistic Cursor sessionでの大規模RLを組み合わせ、CursorBenchで61.3を記録したと説明している。
Comments (0)
No comments yet. Be the first to comment!