Microsoft Research, 다중 업무형 에이전트 프레임워크 CORPGEN 공개

Microsoft Research는 2026년 2월 26일 "CORPGEN advances AI agents for real work"를 공개하며, 현재 에이전트 평가가 실제 업무 난도를 과소평가한다고 지적했다. 단일 과제 중심 벤치마크로는 여러 의존 작업을 동시에 처리하는 기업 업무 현실을 반영하기 어렵다는 문제의식이다.

이를 위해 제안된 환경이 Multi-Horizon Task Environments(MHTEs)다. 이 환경에서 에이전트는 동시에 여러 과제를 수행해야 하며, 각 과제는 10~30개의 종속 단계를 포함한다. 또한 작업 우선순위를 반복적으로 재조정해야 하므로 단순 순차 실행보다 훨씬 복잡한 제어가 필요하다. Microsoft는 최대 46개 동시 작업, 약 6시간 세션으로 평가를 진행했다고 밝혔다.

기준 모델 결과는 명확했다. 3개 독립 에이전트 백엔드 모두에서 동시 작업 수가 늘어나자 완료율이 16.7%에서 8.7%로 하락했다. CORPGEN은 이 하락 패턴을 시스템 설계로 보완한다. 계층형 계획(hierarchical planning), 태스크 간 간섭을 줄이는 분리형 subagent, 선택적 회수를 위한 계층 메모리, 컨텍스트 팽창을 제어하는 적응형 요약이 핵심 구성이다.

Microsoft는 CORPGEN 에이전트를 "digital employees"로 설명한다. 지속적 정체성, 역할 기반 구조, 일정 개념을 갖고 GUI 자동화를 통해 Office 앱을 조작하며, 협업은 공유 내부 상태 없이 이메일과 Microsoft Teams 같은 채널을 통해 이뤄진다. 즉 모델 교체와 무관하게 운영 아키텍처에서 성능을 끌어올리는 접근이다.

평가 수치도 제시됐다. 46개 작업 구간에서 CORPGEN 완료율은 15.2%, 기준선은 4.3%로 약 3.5배 차이다. 특히 experiential learning을 도입했을 때 완료율이 8.7%에서 15.2%로 크게 개선됐다고 밝혔다. 또한 결과물 기반 평가는 인간 판정과 약 90% 일치했지만, 스크린샷·로그 중심 평가는 약 40% 수준에 그쳐 기존 평가법의 한계도 드러냈다.

핵심 시사점은 단순히 더 큰 모델이 아니라 메모리·오케스트레이션·평가 설계가 기업형 에이전트 성능을 좌우한다는 점이다. CORPGEN은 이 시스템 엔지니어링 관점을 정량 벤치마크로 끌어올린 사례다.

Microsoft Research, 다중 업무형 에이전트 프레임워크 CORPGEN 공개

Related Articles

Senior SWE-Bench, agent 평가가 '시니어'라는 말에 걸린 이유

Harness Training, 모델보다 “작업 발판”을 학습시키는 agent 실험

Gemini 3.6 Flash의 진짜 변화, 더 싼 agent 실행 비용

Related Articles

Senior SWE-Bench, agent 평가가 '시니어'라는 말에 걸린 이유
LLM Hacker News Jul 2, 2026 1 min read

Harness Training, 모델보다 “작업 발판”을 학습시키는 agent 실험

Gemini 3.6 Flash의 진짜 변화, 더 싼 agent 실행 비용
Google의 새 Gemini Flash 라인업에서 관심은 모델 이름보다 토큰 효율과 agent workflow 비용에 모였다. 3.6 Flash는 3.5 Flash보다 출력 토큰을 17% 줄였고, Cyber 모델은 CodeMender와 묶였다.