앤스로픽, Responsible Scaling Policy 3.0 공개

RSP 3.0 발표 배경

Anthropic은 2026년 2월 24일, 자사 AI 안전 프레임워크인 Responsible Scaling Policy(RSP)의 세 번째 버전을 발표했다. 회사는 2023년부터 운영해 온 기존 정책의 장점과 한계를 함께 검토한 뒤, 무엇이 실제로 작동했는지 유지하고 부족했던 지점을 보강하는 방향으로 3.0을 설계했다고 설명했다. 핵심 메시지는 명확하다. 고도화되는 모델 능력에 맞춰 안전 조치도 지속적으로 업데이트해야 하며, 그 과정 자체를 더 투명하게 공개하겠다는 것이다.

기존 RSP의 구조와 한계

RSP의 기본 구조는 ‘if-then’ 조건형 약속이다. 모델이 특정 능력 임계치를 넘으면 더 강한 안전장치를 적용하는 방식이며, AI Safety Level(ASL) 체계로 운영된다. Anthropic은 ASL-2와 ASL-3에서 비교적 구체적인 운영 경험을 쌓았지만, 더 높은 단계(ASL-4 이상)는 기술·정책 불확실성이 커 단일 기업이 감당하기 어려운 영역이 존재한다고 평가했다. 특히 위험 임계치 해석의 불확실성, 산업 전반의 조율 필요성, 정책 환경 변수는 기존 체계를 그대로 확장하기 어렵게 만드는 요인으로 제시됐다.

RSP 3.0의 핵심 업데이트

이중 구조 도입: Anthropic 단독으로 이행 가능한 완화 조치와, 업계 전반의 협력이 필요한 권고 조치를 분리해 명시.
Frontier Safety Roadmap: Security, Alignment, Safeguards, Policy 영역의 목표를 공개하고 진행 상황을 추적·평가.
Risk Report 체계화: 모델의 위험 프로파일, 위협 모델, 완화 조치의 연결성을 문서화하고 필요 시 외부 전문가 검토를 포함.

Anthropic은 Risk Report를 온라인 공개하되, 법적·보안상 필요한 최소 범위의 비공개 처리를 적용할 수 있다고 밝혔다.

의미와 시사점

이번 개정은 ‘자사 단독 조치’와 ‘산업 차원의 집단 조치’를 구분해 현실성을 높였다는 점에서 의미가 크다. 또한 Frontier Safety Roadmap과 Risk Report를 통해 선언적 원칙을 운영 가능한 프로세스로 바꾸려는 시도가 뚜렷하다. 요약하면 RSP 3.0은 단순한 문구 개정이 아니라, 고성능 AI 시대에 맞춘 안전 거버넌스의 실행 모델을 제시하려는 업데이트다.

앤스로픽, Responsible Scaling Policy 3.0 공개

RSP 3.0 발표 배경

기존 RSP의 구조와 한계

RSP 3.0의 핵심 업데이트

의미와 시사점

Related Articles

Anthropic, 호주 정부와 AI safety 연구·National AI Plan 지원 MOU 체결

Anthropic, 미 항소법원에 “Claude는 국방부 망 배치 뒤 통제 불가”

NSA의 Mythos 사용, Anthropic 갈등을 AI security 시험대로

Comments (0)

Leave a Comment

Related Articles

Anthropic, 호주 정부와 AI safety 연구·National AI Plan 지원 MOU 체결
AI sources.twitter Apr 1, 2026 2 min read

Anthropic, 미 항소법원에 “Claude는 국방부 망 배치 뒤 통제 불가”

NSA의 Mythos 사용, Anthropic 갈등을 AI security 시험대로
AI Apr 20, 2026 1 min read