Ares 논문, LLM agent 추론 비용 최대 52.7% 절감 제시

Original: Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents View original →

Read in other languages: English日本語
LLM Mar 14, 2026 By Insights AI 2 min read Source

논문이 제안한 것

2026년 3월 9일 arXiv에 제출된 Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents는, thinking LLM agent의 비용 문제를 직접 겨냥한 연구다. 최근 agent는 긴 chain-of-thought reasoning 덕분에 높은 정확도를 얻지만, 그만큼 inference cost가 빠르게 증가한다. 많은 모델이 이미 high, medium, low 같은 reasoning level을 제공하지만, 논문은 이를 고정적으로 쓰는 방식이 비효율적이라고 지적한다. 쉬운 단계에도 계속 high effort를 쓰면 비용 낭비가 크고, 반대로 모든 단계에 low effort를 쓰면 성능이 크게 떨어진다는 것이다.

Ares의 핵심 아이디어는 단순하다. agent가 여러 단계를 거치는 작업을 수행할 때, 각 단계마다 가장 낮은 적절한 reasoning effort를 선택하자는 것이다. 예를 들어 복잡한 웹 구조를 탐색하거나 도구 사용 경로를 설계하는 단계는 높은 추론이 필요할 수 있지만, 이미 목표 URL이 정해진 뒤 페이지를 여는 정도의 단계는 낮은 effort로도 충분할 수 있다. 이를 위해 저자들은 interaction history를 기반으로 매 스텝의 난도를 추정하는 lightweight router를 설계했다.

어떻게 학습했고 어디서 평가했나

논문에 따르면 연구진은 먼저 특정 단계가 성공적으로 완료되기 위해 필요한 최소 reasoning effort를 식별하는 data generation pipeline을 만들었다. 이후 이 데이터를 바탕으로 router를 fine-tuning해, 매 단계에서 어떤 effort level이 필요한지 예측하게 했다. 저자들은 이 접근이 기존 agent에 plug-and-play 방식으로 붙을 수 있다고 설명한다.

평가 벤치마크도 agent 성격별로 나뉜다. TAU-Bench는 tool-use agent, BrowseComp-Plus는 deep-research agent, WebArena는 web agent 평가에 사용됐다. 논문은 fixed high-effort reasoning과 비교했을 때 Ares가 reasoning token 사용량을 최대 52.7%까지 줄이면서도 task success rate 저하는 최소 수준에 그쳤다고 보고한다.

왜 중요한가

이 논문의 의미는 agent 경쟁의 병목이 모델 자체 성능만이 아니라 운영 economics라는 점을 다시 확인해준다는 데 있다. browser agent, research agent, tool-use agent는 step 수가 길어질수록 비용이 폭증하기 쉽다. 따라서 어려운 단계에만 compute를 집중하고 쉬운 단계는 가볍게 처리하는 전략이 성립한다면, 같은 예산으로 더 많은 task를 처리하거나 더 긴 workflow를 운영할 수 있다.

다만 현재 이 결과는 arXiv preprint 기준이며, 동료평가와 독립 재현은 아직 남아 있다. 또한 논문 수치가 곧바로 실제 프로덕션 환경으로 옮겨간다고 단정할 수도 없다. 그럼에도 Ares는 2026년 agent 분야에서 중요한 질문, 즉 얼마나 똑똑한가뿐 아니라 얼마나 효율적으로 똑똑한가를 전면에 올린 연구로 볼 수 있다.

출처: arXiv 논문

Share: Long

Related Articles

LLM Reddit 4d ago 1 min read

새로운 llama.cpp 변경은 <code>--reasoning-budget</code>를 template stub이 아니라 sampler 차원의 실제 제어로 바꾼다. LocalLLaMA thread는 긴 think loop를 줄이는 것과 answer quality를 지키는 것 사이의 tradeoff, 특히 local Qwen 3.5 환경에서의 의미를 집중적으로 논의했다.

LLM Reddit 4d ago 1 min read

r/LocalLLaMA 게시글은 Mac 사용자를 March 11, 2026에 merge된 llama.cpp pull request #20361로 이끌었다. 이 PR은 fused GDN recurrent Metal kernel을 추가하며, Qwen 3.5 계열에서 대략 12-36% throughput 향상을 제시한다. Reddit commenters는 change가 master에는 들어갔지만 일부 local benchmark에서는 여전히 MLX가 더 빠를 수 있다고 덧붙였다.

LLM sources.twitter 4d ago 1 min read

NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.