r/LocalLLaMAが追ったllama.cppのreasoning budget制御
Original: Llama.cpp now with a true reasoning budget! View original →
なぜLocalLLaMAが反応したのか
local reasoning modelは強力だが、単純な質問でも長く考え続けてlatencyとtokenを浪費することがある。だからr/LocalLLaMA threadは、このllama.cpp commitにすぐ反応した。今回の変更はreal reasoning-budget samplerを追加し、parserとchat handlingを広げて、reasoning block内のtoken数を数えながらbudget到達時に終了へ導けるようにした。これまでの--reasoning-budgetが実質的にはtemplate側のstubに近かったのに対し、今回はsampler layerで本当に制御する方向へ進んでいる。
このpostが面白いのは、単なるfeature紹介ではなく失敗データまで出している点だ。投稿者によれば、hard cutoffはQwen3 9BのHumanEval scoreを大きく落とした。full reasoningは94%、non-reasoningは88%だったのに、強制budgetでは78%まで下がった。そこで追加されたのが--reasoning-budget-messageで、thinking終了直前に短いhandoff messageを差し込んでanswer phaseへ自然に移らせる。budget 1000とtransition messageを使った場合、報告されたHumanEval scoreは89%まで戻った。
threadが示した実運用の論点
commentsはすぐにcontrol problemへ進んだ。end-of-think tokenのbiasを徐々に上げてhard stopより自然な終わり方を作れないかという提案もあれば、CLIとHTTP fieldの命名差を気にする声もあった。さらに、local環境ではreasoning modelが些細なpromptに80秒以上費やすことがあり、そこが実際の使い勝手を悪くしているという実感も共有された。必要なのは単なるon/off toggleではなく、latency、energy use、answer qualityを調整するための実戦的なknobだというわけだ。
このcommitの意味は小さなparser tweak以上に大きい。local inference stackがhosted reasoning APIに近い運用制御面を持ち始めたサインだからだ。MacBookやdesktop、小型serverでllama.cppを使う人にとって、reasoning budgetはbenchmark用の飾りではなく、体感を変えるusability featureに近い。
Related Articles
r/LocalLLaMAで、CPUにoffloadした重みを先読みしてprompt処理速度の低下を抑えるllama.cpp実験が話題になった。長いcontextでのhybrid CPU/GPU推論のボトルネックを減らす狙いだ。
公開から数週間が経ち、r/LocalLLaMA では Qwen3.5 に対して 1 つの既定値ではなく、task ごとの sampler と reasoning budget を使い分ける方向へ知見が集まりつつある。
LocalLLaMAがすぐ反応したのは、体感に直結する話だったからだ。小さなGBNF制約だけでQwen3.6のreasoning dragを減らし、長い作業のトークン浪費と時間をまとめて削ったという主張が出た。