Anthropic, frontend design와 장시간 software engineering을 위한 multi-agent harness 상세 공개
Original: Harness design for long-running application development View original →
2026년 3월 24일 Anthropic는 X에서 Claude를 frontend design와 장시간 autonomous software engineering에 더 잘 맞추기 위해 multi-agent harness를 사용한 새 Engineering Blog 글을 공개했다고 밝혔다. 링크된 Harness design for long-running application development는 더 나은 design taste를 끌어내는 문제와, 긴 coding session 동안 coherence를 유지해 실제 application을 완성하는 문제를 함께 다룬 실전형 설명이다.
Anthropic에 따르면 첫 단계는 주관적인 design 판단을 채점 가능한 기준으로 바꾸는 일이었다. 이 design harness는 generator와 evaluator agent를 분리하고, evaluator가 design quality, originality, craft, functionality를 기준으로 결과를 평가하도록 구성됐다. 회사는 generation마다 5에서 15번의 iteration을 돌렸고, 어떤 run은 최대 4시간까지 이어졌다고 설명한다. 핵심은 creation과 critique를 분리하자 Claude가 안전하지만 밋밋한 layout에서 벗어나 더 뚜렷한 결과를 내기 시작했다는 점이다.
같은 발상은 full-stack development에도 옮겨졌다. Anthropic는 planner, generator, evaluator로 구성된 3-agent 구조를 설명한다. planner는 짧은 product prompt를 더 완전한 spec으로 확장하고, generator는 app을 만들며, evaluator는 Playwright MCP로 실행 중인 product를 직접 클릭해 보면서 계약된 기준을 검증한다. 글 속 retro game maker 사례에서는 solo run이 20분과 $9로 끝났지만, full harness run은 6시간과 $200이 들었고 그만큼 더 완성도 높은 결과를 냈다고 Anthropic는 적었다. 이후 Opus 4.6로 진행한 browser DAW 실험도 약 3시간 50분과 $124.70이 들었지만, 예전 sprint 구조 없이도 훨씬 긴 coherent 작업이 가능했다고 설명한다.
이 글이 중요한 이유는 agent 성능을 model 자체의 문제가 아니라 engineering systems 문제로 다룬다는 점이다. Anthropic의 결론은 모든 작업에 최대한 복잡한 orchestration이 필요하다는 것이 아니다. 오히려 model이 좋아질수록 어떤 harness 조각은 덜 중요해지고, 다른 조합은 더 야심찬 workflow를 열어 준다는 주장에 가깝다. coding agent를 실제 product 수준으로 끌어올리려는 팀에게는 prompt design, 역할 분리, evaluation, context management가 어떻게 맞물리는지를 보여 주는 드문 1차 자료다.
Related Articles
AnthropicAI는 2026년 3월 24일 Claude를 frontend와 장기 실행 software engineering 작업에 더 안정적으로 쓰기 위한 multi-agent harness 글을 다시 부각했다. 해당 Anthropic Engineering 글은 initializer agent, incremental coding session, progress log, structured feature list, browser-based testing으로 context-window drift와 premature completion을 줄이는 방법을 설명한다.
Anthropic과 KPMG가 5월 19일 글로벌 전략 동맹을 체결했다. KPMG 전 직원 27만 6천 명이 Digital Gateway를 통해 Claude에 접근하며, 조세·사모펀드·사이버보안 분야 에이전트 워크플로우에 우선 적용된다.
Claude가 세션 도중 사용자에게 수면을 권유하는 동작이 수개월째 보고되고 있다. Anthropic은 '캐릭터 습관'이라고 설명했지만 정확한 원인은 밝히지 못했다.
Comments (0)
No comments yet. Be the first to comment!