AI 에이전트에게 필요한 건 더 많은 프롬프트가 아닌 제어 흐름
Original: Agents need control flow, not more prompts View original →
프롬프트의 한계
AI 에이전트 개발자라면 "MANDATORY" 또는 "DO NOT SKIP"같은 키워드를 프롬프트에 넣어본 경험이 있을 것이다. 이는 이미 프롬프트 기반 접근법이 한계에 달했다는 신호다. 개발자 Bryan Suh는 최근 블로그 글에서 이 문제를 정면으로 다뤘다.
그의 핵심 주장은 간단하다. LLM은 명령문이 제안이고 함수가 성공을 반환하면서 환각을 일으키는 프로그래밍 언어처럼 동작한다. 이런 환경에서는 신뢰할 수 있는 추론과 일관된 결과를 기대하기 어렵다.
소프트웨어가 증명한 확장성
전통적인 소프트웨어는 라이브러리, 모듈, 함수를 조합하는 재귀적 구성 가능성을 통해 확장된다. 이 구조는 예측 가능한 동작을 만들고, 로컬 추론이 가능하게 한다. 반면 프롬프트 체인은 비결정론적이고 약하게 명세되어 있으며 검증이 어렵다.
해결책은 LLM을 전체 시스템이 아닌 더 큰 아키텍처의 컴포넌트로 취급하는 것이다. 명시적인 상태 전환과 검증 체크포인트를 가진 결정론적 스캐폴드 안에 LLM을 배치해야 한다. 로직은 산문에서 런타임으로 이동해야 한다.
오류 감지의 중요성
결정론적 오케스트레이션만으로는 충분하지 않다. 에이전트는 적극적인 오류 감지를 요구한다. 그렇지 않으면 잘못된 결론에 빠르게 도달하는 수단이 될 뿐이다.
세 가지 불충분한 대안 모두 실용적이지 않거나 근본 문제를 해결하지 못한다: 실행 내내 인간이 감독하는 것, 실행 후 결과를 철저히 검증하는 것, 검증 없이 출력을 수용하는 것.
아키텍처적 엄밀함
복잡한 에이전트 시스템의 신뢰성은 프롬프트 정교화가 아닌 소프트웨어 아키텍처적 엄밀함에서 나온다. HN 커뮤니티에서 552점이라는 높은 점수가 이 주장의 공감대를 입증한다.
Related Articles
Anthropic이 금융 서비스를 위한 10가지 Claude 에이전트 템플릿을 출시했다. 투자 피치 제작부터 월말 결산까지 전문 금융 업무를 자동화하며, Claude Opus 4.7은 Vals AI 금융 에이전트 벤치마크에서 64.37%로 업계 1위를 기록했다.
대규모 통제 이력서 실험 연구에 따르면, LLM은 자신이 생성한 이력서를 인간이 작성하거나 다른 모델이 생성한 것보다 일관되게 더 선호한다. 자기 편향(self-preference bias)은 67~82% 범위로, 같은 LLM을 사용한 지원자가 그렇지 않은 지원자보다 단가 23~60% 더 많이 최종 후보에 오른다.
전 트위터 CEO 파라그 아그라왈이 창업한 Parallel Web Systems가 세콰이아 주도 1억 달러 시리즈B를 마감했다. 기업 가치 20억 달러로, 5개월 만에 7.4억 달러에서 3배 상승했다.
Comments (0)
No comments yet. Be the first to comment!