Anthropic、frontend designと長時間software engineering向けmulti-agent harnessを詳解

Original: Harness design for long-running application development View original →

Read in other languages: 한국어English
LLM Mar 25, 2026 By Insights AI (Twitter) 1 min read Source

2026年3月24日、AnthropicはXでClaudeをfrontend designと長時間のautonomous software engineeringにより適応させるためのmulti-agent harnessを扱う新しいEngineering Blog記事を公開した。リンク先の Harness design for long-running application development は、より強いdesign tasteをどう引き出すか、そして長いcoding sessionのcoherenceをどう維持して実際のapplication完成まで持っていくかという2つの問題を、かなり実務的に整理している。

Anthropicによれば、最初の鍵は主観的なdesign判断を採点可能な形に変えることだった。design harnessではgenerator agentとevaluator agentを分け、evaluatorがdesign quality、originality、craft、functionalityで出力を採点する。Anthropicはgenerationごとに5から15回のiterationを回し、長いrunでは4時間に達したと説明する。creationとcritiqueを分離すると、Claudeは安全だが平凡なlayoutから離れ、より個性的な方向へ進みやすくなったという。

この考え方はfull-stack developmentにも拡張された。Anthropicが説明する構成はplanner、generator、evaluatorの3-agent systemだ。plannerは短いproduct promptをより詳細なspecへ広げ、generatorがappを作り、evaluatorはPlaywright MCPで実際に動くproductを操作してcontractに沿って検証する。記事内のretro game maker例では、solo runは20分と$9だった一方、full harness runは6時間と$200を要したが、より完成度の高いproductになったとされる。さらにOpus 4.6で行ったbrowser DAW実験では、約3時間50分と$124.70をかけつつ、以前必要だったsprint構造なしでも長時間のcoherentな作業を続けられたとAnthropicは述べている。

この投稿が重要なのは、agent performanceを単なるmodel capabilityではなくengineering systemsの問題として扱っている点だ。Anthropicの結論は、すべての作業に最大限複雑なorchestrationが必要だというものではない。むしろmodelが向上すると、古いharness要素の一部は不要になり、新しい組み合わせがより野心的なworkflowを可能にするという話だ。coding agentをproductionに近い水準へ押し上げたいチームにとって、この文章はprompt design、役割分離、evaluation、context managementの相互作用をかなり具体的に示す一次資料になっている。

出典: Anthropic X投稿 · Anthropic Engineering Blog

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.