Anthropic, Responsible Scaling Policy v3.0 공개: ASL-3 경보 체계와 외부 감독 강화

핵심 변화와 배경

Anthropic은 2026년 2월 24일 공개한 Responsible Scaling Policy v3.0에서, 고성능 모델이 생물학·화학 영역의 고위험 오남용으로 이어질 수 있는 시나리오를 중심으로 안전 운영 기준을 재정의했다. 회사는 이번 문서의 초점을 "ASL-3 배포 역량을 갖춘 조직 운영"에 맞췄다고 설명하며, 모델 성능 향상과 외부 위협 환경의 변화에 따라 기존 정책을 더 구체적인 운영 규정으로 전환했다고 밝혔다.

문서의 구조는 예방(prevention), 경보(warning), 대응(response), 책임성(accountability)이라는 네 축으로 정리되어 있다. 이전 버전이 원칙 중심이었다면, v3.0은 실제 의사결정 시점에서 어떤 근거로 위험 단계를 올리고 어떤 통제를 즉시 적용할지에 초점을 맞춘다. Anthropic은 "어떤 보호장치도 완전한 안전을 보장하지 않는다"고 명시하면서, 다층 방어와 빠른 에스컬레이션을 결합한 운영 체계를 강조했다.

새로운 경보 임계값

Capability threshold: 저숙련 행위자의 유해 역량을 모델이 실질적으로 높인다는 신호가 확인될 때.
Threat threshold: 국가 단위 또는 고도화된 조직이 모델을 대규모 위해 목적으로 획득하려는 정황이 포착될 때.
Compromise threshold: 모델 가드레일이 무력화되었거나, 가중치·시스템 접근이 유출되어 보호 통제가 약화될 때.

Anthropic은 이 세 임계값을 "관찰 가능한 운영 신호"로 정의해, 안전팀과 경영진이 동일한 기준으로 위험 수준을 판단하도록 설계했다고 밝혔다. 또한 위험이 상승하면 배포 방식, 접근 경로, 모니터링 강도를 단계적으로 재구성하도록 절차를 연결했다.

운영·거버넌스 측면에서의 의미

v3.0에는 위협 정보 수집 전담 기능, 배포 통제 강화, 독립적 검토를 포함한 Risk and Resilience Committee, 외부 검증 및 시뮬레이션 훈련 같은 실행 장치가 포함됐다. 이는 모델 성능 경쟁과 별개로, 상용 배포 이전과 이후에 모두 적용되는 통합 리스크 운영 프레임을 강화하려는 움직임으로 해석된다. 기업 사용자 입장에서는 모델 선택 시 기능 벤치마크뿐 아니라 공급자의 사고 대응 체계와 감사 가능성까지 함께 평가해야 한다는 점이 더 중요해졌다.

이번 개정은 업계 전반의 안전 거버넌스 논의에도 영향을 줄 가능성이 있다. 특히 ASL-3처럼 운영 등급을 명시하고, 경보 임계값을 외부 이해관계자가 해석 가능한 형태로 공개한 사례는 규제기관과 대형 도입 기업의 기준 정렬에 직접적인 참고점이 될 수 있다.

Anthropic, Responsible Scaling Policy v3.0 공개: ASL-3 경보 체계와 외부 감독 강화

핵심 변화와 배경

새로운 경보 임계값

운영·거버넌스 측면에서의 의미

Related Articles

Anthropic, 호주 정부와 AI safety 연구·National AI Plan 지원 MOU 체결

Anthropic, 미 항소법원에 “Claude는 국방부 망 배치 뒤 통제 불가”

NSA의 Mythos 사용, Anthropic 갈등을 AI security 시험대로

Comments (0)

Leave a Comment

Related Articles

Anthropic, 호주 정부와 AI safety 연구·National AI Plan 지원 MOU 체결
AI sources.twitter Apr 1, 2026 2 min read

Anthropic, 미 항소법원에 “Claude는 국방부 망 배치 뒤 통제 불가”

NSA의 Mythos 사용, Anthropic 갈등을 AI security 시험대로
AI Apr 20, 2026 1 min read