Anthropic, 장기 실행 software engineering을 위한 multi-agent Claude harness 재조명
Original: New on the Anthropic Engineering Blog: How we use a multi-agent harness to push Claude further in frontend design and long-running autonomous software engineering. Read more: anthropic.com/engineering/ha… View original →
Anthropic이 X에서 다시 꺼낸 메시지
2026년 3월 24일, AnthropicAI는 Claude를 frontend design과 장기 실행 autonomous software engineering에 더 잘 쓰기 위한 multi-agent harness 관련 Engineering 글을 다시 소개했다. 여기서 날짜는 중요하다. X 게시물은 최근 것이지만, 실제 Engineering 글은 2025년 11월 26일에 게시됐다. 즉 Anthropic은 새 모델 발표보다, 장시간 agent workflow에서 여전히 유효하다고 보는 운용 패턴을 다시 전면에 올린 셈이다.
이 점이 핵심이다. 이번 X 게시물은 새로운 Claude 모델 출시 공지가 아니다. 대신 기존 모델을 더 긴 작업 주기에서 안정적으로 쓰기 위해 어떤 작업 구조가 필요한지를 보여준다. context window는 유한하고, 새 session은 이전 session의 상태를 완전히 기억하지 못하기 때문에, 장기 작업에서는 상태 복구 비용이 곧 성능 문제로 이어진다.
Engineering 글이 추가한 내용
Anthropic은 Claude Agent SDK 위에서 두 단계 구조를 제안한다. 첫 번째 initializer agent는 최초 실행 시 init.sh, claude-progress.txt, 초기 git commit을 만들어 환경을 준비한다. 이후의 coding agent는 한 session마다 incremental progress를 만들고, 다음 session이 바로 이어받을 수 있도록 구조화된 흔적을 남긴다.
글에는 실무적인 장치가 구체적으로 나온다. Anthropic은 feature requirement를 JSON 같은 구조화 형식으로 기록해 agent가 프로젝트를 너무 일찍 끝났다고 선언하거나 요구사항을 임의로 바꾸지 않도록 권한다. 또한 한 번에 한 feature만 처리하고, git에 진행 상황을 commit하며, 다음 사람이나 다음 agent가 바로 이어서 작업할 수 있는 clean state를 남기라고 설명한다. Web app 검증에서는 Puppeteer MCP 같은 browser automation 도구가 특히 중요했다고 밝히는데, 코드만 읽어서는 놓치던 실패를 브라우저 수준에서 잡아낼 수 있었기 때문이다.
왜 중요한가
더 큰 신호는 장기 실행 agent의 성능이 모델 자체만이 아니라 workflow design에 크게 좌우된다는 점이다. Anthropic은 persistent artifact, task decomposition, explicit verification routine이 이제 agent stack의 일부라고 말하고 있다. Claude 같은 시스템을 multi-hour engineering task에 쓰려는 팀에게 harness는 더 이상 부수적인 prompt 요령이 아니라 제품 표면에 가까운 요소가 되고 있다.
플랫폼 팀 관점에서는 시사점도 분명하다. initializer/coding-agent 분리가 일반화되면, progress file, agent-readable test inventory, handoff convention 같은 운영 계층을 표준화해야 할 가능성이 크다. 이는 Anthropic 글에서 직접 단언한 내용은 아니지만, 그 가이드라인에서 자연스럽게 이어지는 추론이다. 앞으로 autonomous software engineering의 병목은 frontier-model intelligence만이 아니라 operational memory와 state management가 될 수 있다.
Related Articles
Anthropic는 2026년 3월 24일 새로운 Engineering Blog 글을 통해 Claude를 frontend design와 장시간 autonomous software engineering에 더 잘 맞추기 위해 multi-agent harness를 어떻게 썼는지 설명했다. 이 글은 planning, generation, evaluation 역할을 분리하고, 단일 agent 대비 뚜렷한 성능 향상을 제시한다.
왜 중요한가: AI 에이전트가 채팅 답변을 넘어 실제 거래 협상으로 들어가고 있기 때문이다. Anthropic은 사내 장터 실험에서 69개 에이전트가 500개 넘는 물품 사이에서 186건의 거래를 마무리했고, 총 거래액은 4,000달러를 조금 넘었다고 공개했다.
Anthropic과 KPMG가 5월 19일 글로벌 전략 동맹을 체결했다. KPMG 전 직원 27만 6천 명이 Digital Gateway를 통해 Claude에 접근하며, 조세·사모펀드·사이버보안 분야 에이전트 워크플로우에 우선 적용된다.
Comments (0)
No comments yet. Be the first to comment!