Anthropic vuln harness, 제품보다 실험대에 가까운 이유

Anthropic이 공개한 Defending Code Reference Harness는 완성형 보안 제품이라기보다, LLM으로 취약점 발견 파이프라인을 짜려는 팀을 위한 참고 구현이다. README는 이 저장소가 유지보수 대상이 아니며 기여도 받지 않는다고 분명히 적는다. 그래서 흥미로운 지점은 “새 도구 출시”보다, 보안팀이 어떤 구조로 Claude를 묶어야 실험 가능한 결과를 얻는지에 있다.

구성은 recon, find, verify, report, patch로 이어진다. C/C++ 메모리 취약점을 Docker와 ASAN으로 찾는 reference pipeline이 들어 있고, autonomous run은 gVisor sandbox 밖에서 실행하지 않도록 설계됐다. 대화형 Claude Code skills도 함께 제공된다. threat model 작성, static scan, triage, patch 후보 생성처럼 사람이 검토하며 움직이는 흐름과, 샌드박스 안에서 대상 코드를 실제 실행하는 흐름을 나눠 둔 점이 핵심이다.

HN 댓글의 논점도 비슷했다. 한 상위 댓글은 이런 harness가 목공소의 jig처럼 팀별 작업 방식에 맞춰 직접 만드는 물건에 가깝다고 봤다. 다른 댓글은 agent 한 개당 분당 입력 토큰과 출력 토큰 소비량을 근거로, Opus나 Mythos급 모델을 병렬로 돌릴 때 비용이 꽤 커질 수 있다고 짚었다.

즉 이 저장소의 가치는 바로 가져다 쓰는 범용 scanner가 아니라 설계 샘플에 있다. 보안팀은 어떤 target을 고를지, 어떤 crash signal을 믿을지, false positive를 어떻게 줄일지, patch 검증을 어디까지 자동화할지를 직접 정해야 한다. Anthropic은 managed option으로 Claude Security도 함께 언급하지만, 공개 harness는 그 제품의 축소판이라기보다 “자체 파이프라인을 만들 때 어떤 뼈대가 필요한가”를 보여주는 자료에 가깝다.

Anthropic vuln harness, 제품보다 실험대에 가까운 이유

Related Articles

Claude Tag, Slack 채널 안으로 들어온 팀 단위 AI 동료 실험

2,000명이 AI assistant를 공격한 실험, 더 중요한 질문은 응답 설계

Claude Sonnet 5, Opus급 agent 성능을 Free·Pro 기본 모델로

Related Articles

Claude Tag, Slack 채널 안으로 들어온 팀 단위 AI 동료 실험
LLM Jun 24, 2026 1 min read

2,000명이 AI assistant를 공격한 실험, 더 중요한 질문은 응답 설계
LLM Hacker News Jun 26, 2026 1 min read

Claude Sonnet 5, Opus급 agent 성능을 Free·Pro 기본 모델로
LLM Jul 1, 2026 1 min read