Ares論文、動的reasoning選択でLLM agentのtoken消費を最大52.7%削減
Original: Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents View original →
論文の提案
Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agentsは、2026年3月9日にarXivへ投稿された研究で、thinking LLM agentの大きな課題であるinference costに正面から取り組んでいる。最近のagentは長いchain-of-thought reasoningによって高い性能を出す一方、multi-step workflowではtoken消費が急増しやすい。論文は、high / medium / lowのようなreasoning levelを全工程で固定的に使う方法は非効率だと指摘する。常にlowでは性能が落ち、常にhighでは単純な工程にまで過剰な計算を払うことになるからだ。
Aresの中心的な考え方は、reasoning effortをタスク全体で一律に決めるのではなく、各ステップごとに割り当てることにある。複雑なweb構造を探索する段階やtool-useの計画を立てる段階では高いreasoning budgetが必要だが、target URLを開くような単純な工程は低いeffortで足りる場合がある。そこで著者らはinteraction historyを見て、そのステップに必要な最小のreasoning levelを予測するlightweight routerを導入した。
学習方法と評価
論文では、各ステップが成功するのに必要な最小effortを推定するdata generation pipelineをまず構築し、そのラベルを使ってrouterをfine-tuningしたとしている。重要なのは、これが既存agentを全面的に置き換える手法ではなく、既存システムの上に載せられるplug-and-playな効率化レイヤーとして設計されている点だ。
評価には、tool-use agent向けのTAU-Bench、deep-research agent向けのBrowseComp-Plus、web agent向けのWebArenaが使われた。著者らは、fixed high-effort reasoningと比べてAresがreasoning token使用量を最大52.7%削減しつつ、task success rateの低下を最小限に抑えたと報告している。
なぜ重要か
この研究が重要なのは、agentの競争軸が単なる性能から、cost、latency、運用可能なstep数へ広がっていることを示すからだ。難しい工程だけにcomputeを集中し、簡単な工程では軽量に動かせるなら、同じ予算でより多くのworkflowを処理できるし、より長いagentタスクも現実的になる。
もちろん注意点もある。現時点ではarXiv preprintであり、peer reviewも独立再現もまだ完了していない。また結果は著者らのbenchmark設定に基づく。しかしそれでもAresは、2026年のagent研究において「どれだけ深く考えられるか」だけでなく「どれだけ効率よく考えられるか」を前面に押し出した高シグナルな更新といえる。
出典: arXiv論文
Related Articles
27BモデルがSonnet 4.6に並んだという話でLocalLLaMAは沸いたが、議論はすぐベンチ最適化と実運用条件の確認に移った。
LocalLLaMAはこれを単なるベンチ画像として流さなかった。単一のRTX 3090でQwen3.6-27Bの処理量を平均1.98倍まで押し上げ、再学習なしで長文脈も支えるという主張がスレッドの熱源になっている。
LocalLLaMAはHipfireを見てまず、AMD向けでありがちな曖昧な互換性アピールではなく数字が前に出ている点に反応した。RDNA基準のベンチ表に加えて、ユーザー実測がその場で積み上がり始めたのがスレッドの熱源だった。
Comments (0)
No comments yet. Be the first to comment!