Anthropic, frontend design와 장시간 software engineering을 위한 multi-agent harness 상세 공개

2026년 3월 24일 Anthropic는 X에서 Claude를 frontend design와 장시간 autonomous software engineering에 더 잘 맞추기 위해 multi-agent harness를 사용한 새 Engineering Blog 글을 공개했다고 밝혔다. 링크된 Harness design for long-running application development는 더 나은 design taste를 끌어내는 문제와, 긴 coding session 동안 coherence를 유지해 실제 application을 완성하는 문제를 함께 다룬 실전형 설명이다.

Anthropic에 따르면 첫 단계는 주관적인 design 판단을 채점 가능한 기준으로 바꾸는 일이었다. 이 design harness는 generator와 evaluator agent를 분리하고, evaluator가 design quality, originality, craft, functionality를 기준으로 결과를 평가하도록 구성됐다. 회사는 generation마다 5에서 15번의 iteration을 돌렸고, 어떤 run은 최대 4시간까지 이어졌다고 설명한다. 핵심은 creation과 critique를 분리하자 Claude가 안전하지만 밋밋한 layout에서 벗어나 더 뚜렷한 결과를 내기 시작했다는 점이다.

같은 발상은 full-stack development에도 옮겨졌다. Anthropic는 planner, generator, evaluator로 구성된 3-agent 구조를 설명한다. planner는 짧은 product prompt를 더 완전한 spec으로 확장하고, generator는 app을 만들며, evaluator는 Playwright MCP로 실행 중인 product를 직접 클릭해 보면서 계약된 기준을 검증한다. 글 속 retro game maker 사례에서는 solo run이 20분과 $9로 끝났지만, full harness run은 6시간과 $200이 들었고 그만큼 더 완성도 높은 결과를 냈다고 Anthropic는 적었다. 이후 Opus 4.6로 진행한 browser DAW 실험도 약 3시간 50분과 $124.70이 들었지만, 예전 sprint 구조 없이도 훨씬 긴 coherent 작업이 가능했다고 설명한다.

이 글이 중요한 이유는 agent 성능을 model 자체의 문제가 아니라 engineering systems 문제로 다룬다는 점이다. Anthropic의 결론은 모든 작업에 최대한 복잡한 orchestration이 필요하다는 것이 아니다. 오히려 model이 좋아질수록 어떤 harness 조각은 덜 중요해지고, 다른 조합은 더 야심찬 workflow를 열어 준다는 주장에 가깝다. coding agent를 실제 product 수준으로 끌어올리려는 팀에게는 prompt design, 역할 분리, evaluation, context management가 어떻게 맞물리는지를 보여 주는 드문 1차 자료다.

출처: Anthropic X 게시물 · Anthropic Engineering Blog

Anthropic, frontend design와 장시간 software engineering을 위한 multi-agent harness 상세 공개

Related Articles

Anthropic、長時間software engineering向けmulti-agent Claude harnessを再提示

Claude Fable 5、GDPval-AA 1932点でエージェント業務評価の首位へ

Claudeの本人確認、論点は「誰が高性能モデルを使えるか」へ