Anthropic、frontend designと長時間software engineering向けmulti-agent harnessを詳解
Original: Harness design for long-running application development View original →
2026年3月24日、AnthropicはXでClaudeをfrontend designと長時間のautonomous software engineeringにより適応させるためのmulti-agent harnessを扱う新しいEngineering Blog記事を公開した。リンク先の Harness design for long-running application development は、より強いdesign tasteをどう引き出すか、そして長いcoding sessionのcoherenceをどう維持して実際のapplication完成まで持っていくかという2つの問題を、かなり実務的に整理している。
Anthropicによれば、最初の鍵は主観的なdesign判断を採点可能な形に変えることだった。design harnessではgenerator agentとevaluator agentを分け、evaluatorがdesign quality、originality、craft、functionalityで出力を採点する。Anthropicはgenerationごとに5から15回のiterationを回し、長いrunでは4時間に達したと説明する。creationとcritiqueを分離すると、Claudeは安全だが平凡なlayoutから離れ、より個性的な方向へ進みやすくなったという。
この考え方はfull-stack developmentにも拡張された。Anthropicが説明する構成はplanner、generator、evaluatorの3-agent systemだ。plannerは短いproduct promptをより詳細なspecへ広げ、generatorがappを作り、evaluatorはPlaywright MCPで実際に動くproductを操作してcontractに沿って検証する。記事内のretro game maker例では、solo runは20分と$9だった一方、full harness runは6時間と$200を要したが、より完成度の高いproductになったとされる。さらにOpus 4.6で行ったbrowser DAW実験では、約3時間50分と$124.70をかけつつ、以前必要だったsprint構造なしでも長時間のcoherentな作業を続けられたとAnthropicは述べている。
この投稿が重要なのは、agent performanceを単なるmodel capabilityではなくengineering systemsの問題として扱っている点だ。Anthropicの結論は、すべての作業に最大限複雑なorchestrationが必要だというものではない。むしろmodelが向上すると、古いharness要素の一部は不要になり、新しい組み合わせがより野心的なworkflowを可能にするという話だ。coding agentをproductionに近い水準へ押し上げたいチームにとって、この文章はprompt design、役割分離、evaluation、context managementの相互作用をかなり具体的に示す一次資料になっている。
Related Articles
Anthropicが2026年2月17日にClaude Sonnet 4.6を公開した。1M token context beta、据え置き価格、そしてcoding・computer use・long-context reasoning全体の強化が柱になっている。
AnthropicはFeb 17, 2026、Claude Sonnet 4.6を発表し、coding、computer use、long-context reasoning、agent planningを幅広く強化したと説明した。価格はSonnet 4.5と同じ$3/$15のまま、1M token context windowと複数のtool機能を追加している。
Anthropicは2026年3月24日のX投稿で、Claudeを長く使うuserほど応答をより慎重に反復し、full autonomyへの依存は低いと述べた。より高い価値のtaskに取り組み、successful responseも得やすいという整理だ。
Comments (0)
No comments yet. Be the first to comment!