Anthropicの脆弱性発見harness、製品というよりチーム用の設計図
Original: Anthropic's open-source framework for AI-powered vulnerability discovery View original →
Anthropicが公開した Defending Code Reference Harness は、完成品のセキュリティスキャナーというより、LLMで脆弱性発見の流れを組むための参考実装に近い。READMEには、このリポジトリは保守されず、コントリビューションも受け付けないと明記されている。だから注目点は新製品の登場ではなく、Claudeをどのような枠組みに入れると検証可能な結果に近づくのか、という設計にある。
パイプラインは recon、find、verify、report、patch の順に進む。標準の対象はDockerとASANを使ったC/C++のメモリ脆弱性で、自律実行はgVisor sandbox内で動かす前提だ。さらにClaude Code向けのskillsとして、threat model作成、scan、triage、customize、patch候補作成も用意されている。人が確認しながら進める作業と、対象コードを実行する自律パイプラインを分けている点が重要だ。
HNの議論も実務寄りだった。上位コメントの一つは、この種のharnessを作業場の治具にたとえ、アイデアとしては有用だが、実際には各チームの作業スタイル、対象定義、通知方法に合わせて作るものだと見ていた。別のコメントでは、READMEにあるエージェントごとのトークン消費目安をもとに、強いモデルを並列で使う場合のコストを問題にしていた。
結局、この公開の価値はそのまま使える万能scannerではなく、脆弱性発見agentを支える周辺構造の見本にある。何を発見とみなすか、crashをどう再現するか、重複をどう除くか、sandboxをどこで強制するか。モデルだけでなく、その外側の設計こそが成果を左右する。
Related Articles
Anthropicは5月29日、Claude Platform on AWSでManaged Agentsのwebhooks、multiagent orchestration、self-hosted sandboxesを利用可能にした。Claude APIのAWS展開は、単なるモデル呼び出しからagent運用基盤へ広がっている。
Claude Opus 4.8の初期評価は、コーディングだけでなく実務型エージェント作業に広がっている。Artificial AnalysisはGDPval-AAで1890点、GPT-5.5 xhighを121点上回ったとした。
AnthropicAIは2026年3月24日、Claudeをfrontendや長時間software engineeringでより安定して使うためのmulti-agent harness記事を取り上げた。元記事ではinitializer agent、incremental coding session、progress log、structured feature list、browser-based testingを組み合わせ、context-window driftやpremature completionを抑える方法を説明している。