Claude 에이전트 권한을 프롬프트 대신 샌드박스로 제한
Original: Anthropic shifts Claude safety toward containment, not prompts View original →
Claude 권한의 경계가 제품 설계의 핵심으로 이동
Claude가 코드 실행, 파일 접근, 내부 도구 사용까지 맡기 시작하면 한 번의 오류가 미치는 범위도 커진다. Anthropic은 2026년 5월 26일 트윗에서 “agents should evolve with their capabilities”라고 짧게 적고, Claude 제품군에서 권한과 접근 범위를 어떻게 제한하는지 설명한 엔지니어링 글을 연결했다. 원문 트윗은 여기에서 확인할 수 있다.
핵심은 에이전트에게 무엇을 하지 말라고 말하는 방식보다, 애초에 무엇을 할 수 있는지를 좁히는 방식이다. Anthropic 글은 claude.ai, Claude Code, Claude Cowork의 방어 구조를 비교하면서 샌드박스, 가상머신, 네트워크 송신 제한, 도구 권한 분리가 실제 제품 안전성의 기반이라고 설명한다. 회사는 12개월 전만 해도 Claude가 내부 서비스를 중단시킬 수 있는 수준의 접근권을 갖는 상황을 받아들이기 어려웠지만, 지금은 개발 생산성을 위해 그런 수준의 도구 사용이 일상화됐다고 적었다.
가장 눈에 띄는 수치는 승인 프롬프트다. Anthropic은 Claude Code 사용자가 권한 요청의 약 93%를 승인했다는 텔레메트리 결과를 공개했다. 승인 창이 많아질수록 사용자는 세부 내용을 덜 살피게 되고, 사람을 매번 중간에 세우는 방식만으로는 충분한 방어가 되지 않는다. 그래서 Claude Code의 auto mode처럼 안전한 승인 패턴을 자동화하고, 더 위험한 작업은 격리된 환경에서만 허용하는 쪽으로 무게가 옮겨간다.
이 글은 Anthropic이 자주 다루는 안전·해석가능성 논의를 제품 엔지니어링 언어로 바꾼 사례다. 특히 Claude Mythos Preview처럼 능력은 높지만 배포 위험이 큰 모델을 언급하며, 모델 성능이 높아질수록 방어자는 권한 경계를 더 정교하게 설계해야 한다는 점을 강조한다. 다음 관전 포인트는 이런 격리 모델이 로컬 개발 환경과 기업용 에이전트 배포에서 표준 기능으로 굳어질지 여부다.
Related Articles
중요한 점은 보안팀이 실제로 켤 수 있는 형태로 AI 코드 보안 기능이 묶였다는 데 있다. Anthropic는 Opus 4.7을 얹은 beta 제품에 취약점 스캔, 검증, 수정 제안을 넣었고, 앞선 preview는 이미 수백 개 조직의 production code에서 쓰였다.
Anthropic이 Code with Claude 런던 행사에서 Claude Managed Agents에 자가 호스팅 샌드박스(공개 베타)와 MCP 터널(리서치 프리뷰)을 출시했다. 민감한 파일과 내부 시스템을 기업 인프라 밖으로 내보내지 않고도 AI 에이전트를 운용할 수 있게 됐다.
Claude Mythos Preview를 쓴 Project Glasswing이 한 달 만에 high·critical 취약점 1만 건 이상을 찾아냈다. 문제는 발견 능력이 아니라 90일 공개 관행 안에서 검증·공개·패치를 감당할 운영 속도로 옮겨갔다.
Comments (0)
No comments yet. Be the first to comment!