Anthropic, Responsible Scaling Policy v3.0 공개: ASL-3 경보 체계와 외부 감독 강화
Original: Responsible Scaling Policy View original →
핵심 변화와 배경
Anthropic은 2026년 2월 24일 공개한 Responsible Scaling Policy v3.0에서, 고성능 모델이 생물학·화학 영역의 고위험 오남용으로 이어질 수 있는 시나리오를 중심으로 안전 운영 기준을 재정의했다. 회사는 이번 문서의 초점을 "ASL-3 배포 역량을 갖춘 조직 운영"에 맞췄다고 설명하며, 모델 성능 향상과 외부 위협 환경의 변화에 따라 기존 정책을 더 구체적인 운영 규정으로 전환했다고 밝혔다.
문서의 구조는 예방(prevention), 경보(warning), 대응(response), 책임성(accountability)이라는 네 축으로 정리되어 있다. 이전 버전이 원칙 중심이었다면, v3.0은 실제 의사결정 시점에서 어떤 근거로 위험 단계를 올리고 어떤 통제를 즉시 적용할지에 초점을 맞춘다. Anthropic은 "어떤 보호장치도 완전한 안전을 보장하지 않는다"고 명시하면서, 다층 방어와 빠른 에스컬레이션을 결합한 운영 체계를 강조했다.
새로운 경보 임계값
- Capability threshold: 저숙련 행위자의 유해 역량을 모델이 실질적으로 높인다는 신호가 확인될 때.
- Threat threshold: 국가 단위 또는 고도화된 조직이 모델을 대규모 위해 목적으로 획득하려는 정황이 포착될 때.
- Compromise threshold: 모델 가드레일이 무력화되었거나, 가중치·시스템 접근이 유출되어 보호 통제가 약화될 때.
Anthropic은 이 세 임계값을 "관찰 가능한 운영 신호"로 정의해, 안전팀과 경영진이 동일한 기준으로 위험 수준을 판단하도록 설계했다고 밝혔다. 또한 위험이 상승하면 배포 방식, 접근 경로, 모니터링 강도를 단계적으로 재구성하도록 절차를 연결했다.
운영·거버넌스 측면에서의 의미
v3.0에는 위협 정보 수집 전담 기능, 배포 통제 강화, 독립적 검토를 포함한 Risk and Resilience Committee, 외부 검증 및 시뮬레이션 훈련 같은 실행 장치가 포함됐다. 이는 모델 성능 경쟁과 별개로, 상용 배포 이전과 이후에 모두 적용되는 통합 리스크 운영 프레임을 강화하려는 움직임으로 해석된다. 기업 사용자 입장에서는 모델 선택 시 기능 벤치마크뿐 아니라 공급자의 사고 대응 체계와 감사 가능성까지 함께 평가해야 한다는 점이 더 중요해졌다.
이번 개정은 업계 전반의 안전 거버넌스 논의에도 영향을 줄 가능성이 있다. 특히 ASL-3처럼 운영 등급을 명시하고, 경보 임계값을 외부 이해관계자가 해석 가능한 형태로 공개한 사례는 규제기관과 대형 도입 기업의 기준 정렬에 직접적인 참고점이 될 수 있다.
Related Articles
Anthropic은 2026년 3월 6일 Claude Opus 4.6이 Firefox 취약점 CVE-2026-2796에 대한 테스트용 익스플로잇을 작성한 과정을 공개했다. 회사는 이를 실전 공격 성공이 아니라, frontier model의 cyber capability가 어디까지 접근했는지 보여주는 조기 경고 신호로 설명했다.
Anthropic은 2026년 3월 5일 성명을 통해 Department of War의 공급망 리스크 지정 통보를 받았다고 밝혔다. 회사는 조치의 적용 범위가 제한적이라고 설명하면서도 법적 대응과 전환 지원을 병행하겠다고 했다.
Anthropic은 Frontier Safety Roadmap을 통해 2026~2027년 안전·보안·정책 목표와 일정 기반 이행 계획을 공개했다. 문서에는 ASL-3 보호조치 유지, 정책 로드맵 제안, 내부 AI 개발 활동 가시성 강화 같은 구체 과제가 포함됐다.
Comments (0)
No comments yet. Be the first to comment!