앤스로픽, Responsible Scaling Policy 3.0 공개
Original: Anthropic Updates Responsible Scaling Policy to Version 3.0 View original →
RSP 3.0 발표 배경
Anthropic은 2026년 2월 24일, 자사 AI 안전 프레임워크인 Responsible Scaling Policy(RSP)의 세 번째 버전을 발표했다. 회사는 2023년부터 운영해 온 기존 정책의 장점과 한계를 함께 검토한 뒤, 무엇이 실제로 작동했는지 유지하고 부족했던 지점을 보강하는 방향으로 3.0을 설계했다고 설명했다. 핵심 메시지는 명확하다. 고도화되는 모델 능력에 맞춰 안전 조치도 지속적으로 업데이트해야 하며, 그 과정 자체를 더 투명하게 공개하겠다는 것이다.
기존 RSP의 구조와 한계
RSP의 기본 구조는 ‘if-then’ 조건형 약속이다. 모델이 특정 능력 임계치를 넘으면 더 강한 안전장치를 적용하는 방식이며, AI Safety Level(ASL) 체계로 운영된다. Anthropic은 ASL-2와 ASL-3에서 비교적 구체적인 운영 경험을 쌓았지만, 더 높은 단계(ASL-4 이상)는 기술·정책 불확실성이 커 단일 기업이 감당하기 어려운 영역이 존재한다고 평가했다. 특히 위험 임계치 해석의 불확실성, 산업 전반의 조율 필요성, 정책 환경 변수는 기존 체계를 그대로 확장하기 어렵게 만드는 요인으로 제시됐다.
RSP 3.0의 핵심 업데이트
- 이중 구조 도입: Anthropic 단독으로 이행 가능한 완화 조치와, 업계 전반의 협력이 필요한 권고 조치를 분리해 명시.
- Frontier Safety Roadmap: Security, Alignment, Safeguards, Policy 영역의 목표를 공개하고 진행 상황을 추적·평가.
- Risk Report 체계화: 모델의 위험 프로파일, 위협 모델, 완화 조치의 연결성을 문서화하고 필요 시 외부 전문가 검토를 포함.
Anthropic은 Risk Report를 온라인 공개하되, 법적·보안상 필요한 최소 범위의 비공개 처리를 적용할 수 있다고 밝혔다.
의미와 시사점
이번 개정은 ‘자사 단독 조치’와 ‘산업 차원의 집단 조치’를 구분해 현실성을 높였다는 점에서 의미가 크다. 또한 Frontier Safety Roadmap과 Risk Report를 통해 선언적 원칙을 운영 가능한 프로세스로 바꾸려는 시도가 뚜렷하다. 요약하면 RSP 3.0은 단순한 문구 개정이 아니라, 고성능 AI 시대에 맞춘 안전 거버넌스의 실행 모델을 제시하려는 업데이트다.
Related Articles
Anthropic은 2026년 3월 31일 호주 정부와 AI safety 연구 및 Australia National AI Plan 지원을 위한 MOU를 체결했다고 밝혔다. 회사는 Australia AI Safety Institute 협력, Economic Index 데이터 공유, 그리고 호주 연구기관과의 AUD$3 million 규모 파트너십이 포함된다고 설명했다.
이 소송의 핵심은 군 내부에 들어간 뒤에도 모델 공급사가 통제 주체로 남는지다. AP가 전한 4월 22일 항소심 서면에서 Anthropic은 Claude가 국방부 기밀망에 배치된 뒤에는 자사가 조작할 수 없다고 주장했고, 이는 정부가 씌운 공급망 위험 딱지를 정면으로 겨냥했다.
Axios는 NSA가 Anthropic의 Mythos Preview를 쓰고 있다고 보도했다. Pentagon이 Anthropic을 supply-chain risk로 지목하는 와중이라, AI safety 제한과 연방 cybersecurity 수요가 정면으로 부딪히고 있다.
Comments (0)
No comments yet. Be the first to comment!