Computer Use, 구조화된 API보다 45배 비싼 이유
Original: Computer Use is 45x more expensive than structured APIs View original →
비교 실험 개요
Reflex 팀이 동일한 어드민 패널에서 두 가지 에이전트 방식을 비교했다. Path A는 스크린샷과 클릭으로 동작하는 비전 에이전트(browser-use 0.12), Path B는 앱의 HTTP 엔드포인트를 직접 호출하는 API 에이전트다. 두 경우 모두 동일한 Claude Sonnet 모델을 사용했다.
비전 에이전트의 실패
테스트 작업은 'Smith' 고객의 보류 중인 리뷰 전체를 승인하고 주문을 배송 완료 처리하는 것이었다. API 에이전트는 8번의 호출로 완료했지만, 비전 에이전트는 4개 중 1개의 리뷰만 승인하고 멈췄다. 페이지 하단의 리뷰가 스크롤 아래에 있어 에이전트가 더 있다는 신호를 받지 못했기 때문이다.
14단계 가이드로 겨우 성공
비전 에이전트가 작업을 완료하게 하려면 사이드바, 탭, 폼 필드를 단계별로 명시한 14단계 상세 프롬프트가 필요했다. 이 방식으로 14분이 걸렸고 약 50만 개의 입력 토큰을 소모했다. API 에이전트 대비 약 45배 이상의 비용이다.
숨겨진 비용
API 에이전트는 UI가 렌더링하는 것이 아닌 핸들러가 반환하는 전체 결과를 직접 읽는다. 비전 에이전트의 실질적 비용은 토큰 비용 외에도 세밀한 프롬프트 작성이라는 엔지니어링 비용을 포함한다. UI가 변경될 때마다 프롬프트도 업데이트해야 한다.
Related Articles
r/artificial의 한 토론 글은 email, phone number, browser, computer, memory, payments, SaaS access 같은 사람의 기본 업무 능력이 빠르게 agent용 API primitive로 재구성되고 있다고 정리한다.
HN이 좋아한 건 해킹 감성 자체보다 인프라였다. Cua의 macOS background driver는 에이전트가 다른 앱에서 일하는 동안 커서와 포커스, Space를 그대로 두는 쪽에 방점을 찍었다.
HN은 버전 숫자 자체에 오래 머물지 않았다. Zed가 1.0을 붙인 순간, 빠른 Rust 편집기가 사람과 Claude Code, Codex가 함께 붙는 작업장의 기본값이 될 수준인지 바로 시험대에 올랐다.
Comments (0)
No comments yet. Be the first to comment!