Microsoft Research, 다중 업무형 에이전트 프레임워크 CORPGEN 공개
Original: CORPGEN advances AI agents for real work View original →
Microsoft Research는 2026년 2월 26일 "CORPGEN advances AI agents for real work"를 공개하며, 현재 에이전트 평가가 실제 업무 난도를 과소평가한다고 지적했다. 단일 과제 중심 벤치마크로는 여러 의존 작업을 동시에 처리하는 기업 업무 현실을 반영하기 어렵다는 문제의식이다.
이를 위해 제안된 환경이 Multi-Horizon Task Environments(MHTEs)다. 이 환경에서 에이전트는 동시에 여러 과제를 수행해야 하며, 각 과제는 10~30개의 종속 단계를 포함한다. 또한 작업 우선순위를 반복적으로 재조정해야 하므로 단순 순차 실행보다 훨씬 복잡한 제어가 필요하다. Microsoft는 최대 46개 동시 작업, 약 6시간 세션으로 평가를 진행했다고 밝혔다.
기준 모델 결과는 명확했다. 3개 독립 에이전트 백엔드 모두에서 동시 작업 수가 늘어나자 완료율이 16.7%에서 8.7%로 하락했다. CORPGEN은 이 하락 패턴을 시스템 설계로 보완한다. 계층형 계획(hierarchical planning), 태스크 간 간섭을 줄이는 분리형 subagent, 선택적 회수를 위한 계층 메모리, 컨텍스트 팽창을 제어하는 적응형 요약이 핵심 구성이다.
Microsoft는 CORPGEN 에이전트를 "digital employees"로 설명한다. 지속적 정체성, 역할 기반 구조, 일정 개념을 갖고 GUI 자동화를 통해 Office 앱을 조작하며, 협업은 공유 내부 상태 없이 이메일과 Microsoft Teams 같은 채널을 통해 이뤄진다. 즉 모델 교체와 무관하게 운영 아키텍처에서 성능을 끌어올리는 접근이다.
평가 수치도 제시됐다. 46개 작업 구간에서 CORPGEN 완료율은 15.2%, 기준선은 4.3%로 약 3.5배 차이다. 특히 experiential learning을 도입했을 때 완료율이 8.7%에서 15.2%로 크게 개선됐다고 밝혔다. 또한 결과물 기반 평가는 인간 판정과 약 90% 일치했지만, 스크린샷·로그 중심 평가는 약 40% 수준에 그쳐 기존 평가법의 한계도 드러냈다.
핵심 시사점은 단순히 더 큰 모델이 아니라 메모리·오케스트레이션·평가 설계가 기업형 에이전트 성능을 좌우한다는 점이다. CORPGEN은 이 시스템 엔지니어링 관점을 정량 벤치마크로 끌어올린 사례다.
Related Articles
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
Claude Opus 4.8의 강점이 코딩 벤치마크를 넘어 실제 업무형 에이전트 평가로 확장됐다. Artificial Analysis는 max effort 기준 1890점을 기록해 GPT-5.5 xhigh보다 121점 앞섰다고 밝혔다.
기업 RAG의 약점은 답을 모르는 것이 아니라, 필요한 근거가 다른 저장소에 흩어졌을 때 너무 일찍 멈추는 데 있다. Google Research는 충분한 문맥을 검사하고 다시 검색하는 Agentic RAG로 factuality 데이터셋 정확도를 최대 34% 높였다고 밝혔다.