Microsoft Research, 다중 업무형 에이전트 프레임워크 CORPGEN 공개
Original: CORPGEN advances AI agents for real work View original →
Microsoft Research는 2026년 2월 26일 "CORPGEN advances AI agents for real work"를 공개하며, 현재 에이전트 평가가 실제 업무 난도를 과소평가한다고 지적했다. 단일 과제 중심 벤치마크로는 여러 의존 작업을 동시에 처리하는 기업 업무 현실을 반영하기 어렵다는 문제의식이다.
이를 위해 제안된 환경이 Multi-Horizon Task Environments(MHTEs)다. 이 환경에서 에이전트는 동시에 여러 과제를 수행해야 하며, 각 과제는 10~30개의 종속 단계를 포함한다. 또한 작업 우선순위를 반복적으로 재조정해야 하므로 단순 순차 실행보다 훨씬 복잡한 제어가 필요하다. Microsoft는 최대 46개 동시 작업, 약 6시간 세션으로 평가를 진행했다고 밝혔다.
기준 모델 결과는 명확했다. 3개 독립 에이전트 백엔드 모두에서 동시 작업 수가 늘어나자 완료율이 16.7%에서 8.7%로 하락했다. CORPGEN은 이 하락 패턴을 시스템 설계로 보완한다. 계층형 계획(hierarchical planning), 태스크 간 간섭을 줄이는 분리형 subagent, 선택적 회수를 위한 계층 메모리, 컨텍스트 팽창을 제어하는 적응형 요약이 핵심 구성이다.
Microsoft는 CORPGEN 에이전트를 "digital employees"로 설명한다. 지속적 정체성, 역할 기반 구조, 일정 개념을 갖고 GUI 자동화를 통해 Office 앱을 조작하며, 협업은 공유 내부 상태 없이 이메일과 Microsoft Teams 같은 채널을 통해 이뤄진다. 즉 모델 교체와 무관하게 운영 아키텍처에서 성능을 끌어올리는 접근이다.
평가 수치도 제시됐다. 46개 작업 구간에서 CORPGEN 완료율은 15.2%, 기준선은 4.3%로 약 3.5배 차이다. 특히 experiential learning을 도입했을 때 완료율이 8.7%에서 15.2%로 크게 개선됐다고 밝혔다. 또한 결과물 기반 평가는 인간 판정과 약 90% 일치했지만, 스크린샷·로그 중심 평가는 약 40% 수준에 그쳐 기존 평가법의 한계도 드러냈다.
핵심 시사점은 단순히 더 큰 모델이 아니라 메모리·오케스트레이션·평가 설계가 기업형 에이전트 성능을 좌우한다는 점이다. CORPGEN은 이 시스템 엔지니어링 관점을 정량 벤치마크로 끌어올린 사례다.
Related Articles
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
Claude는 Claude Code에 Code Review를 추가하고 PR마다 여러 agent가 병렬로 버그를 찾는 구조를 도입했다고 밝혔다. 기능은 Team과 Enterprise 대상 research preview로 제공된다.
Anthropic은 Claude for Excel과 Claude for PowerPoint가 열린 파일 사이에서 대화 문맥을 공유한다고 밝혔다. 동시에 add-in 내부 Skills와 Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry 경유 배포를 추가해 enterprise workflow 통합 범위를 넓혔다.
Comments (0)
No comments yet. Be the first to comment!