#llm-agents

LLM Mar 14, 2026 2 min read

Ares 논문, LLM agent 추론 비용 최대 52.7% 절감 제시

2026년 3월 9일 제출된 arXiv 논문 Ares는 multi-step LLM agent에서 단계별 reasoning effort를 동적으로 조절하는 방식을 제안했다. 저자들은 fixed high-effort 대비 reasoning token 사용량을 최대 52.7% 줄이면서 성공률 저하는 작았다고 보고했다.

#llm-agents #reasoning #efficiency

LLM Hacker News Mar 9, 2026 1 min read

Agent Safehouse, 로컬 coding agent에 deny-first macOS sandboxing을 적용하다

Hacker News에서 주목받은 Agent Safehouse는 Claude Code, Codex 같은 agent를 macOS의 <code>sandbox-exec</code> 기반 deny-first sandbox 안에서 실행하는 도구다. project 단위 접근만 기본 허용하고 민감한 경로는 kernel 레벨에서 차단하며, 단일 Bash script와 Apache 2.0 license로 배포된다.

#llm-agents #macos #sandboxing

LLM Reddit Feb 28, 2026 1 min read

Reddit 이슈: 보이지 않는 Unicode 문자가 AI 에이전트 지시를 바꿀 수 있다는 “Reverse CAPTCHA” 분석

r/artificial에서 주목받은 보안 연구는 zero-width/Unicode Tags를 이용한 숨은 지시가 도구 사용형 LLM 에이전트에 미치는 영향을 분석했다. 공개 요약은 5개 모델, 8,308개 출력 평가를 제시한다.

#ai-security #prompt-injection #unicode

LLM Hacker News Feb 22, 2026 1 min read

Karpathy: "Claws"는 LLM 에이전트 위의 새로운 레이어

Andrej Karpathy가 새로운 AI 에이전트 패러다임 "Claws"를 소개했습니다. OpenClaw와 같은 시스템이 LLM 에이전트 위에서 오케스트레이션, 스케줄링, 컨텍스트, 도구 호출, 지속성을 제공하는 새로운 AI 스택 레이어입니다.

#llm-agents #karpathy #openclaw

LLM Hacker News Feb 17, 2026 1 min read

SkillsBench 연구: self-generated Agent Skill은 평균적으로 효과가 없었다

Hacker News에서 주목받은 SkillsBench 논문은 86개 태스크·11개 도메인에서 Agent Skill의 실제 효용을 비교했다. curated skill은 평균 통과율을 크게 끌어올렸지만, 모델이 직접 만든 skill은 평균 개선 효과를 보이지 않았다.

#llm-agents #benchmark #evaluation