Anthropic, Claude 선거 안전성 시험 공개… 100%·99.8% 응답 적합도
Original: An update on our election safeguards View original →
Anthropic의 이번 글이 중요한 이유는 선거 안전 장치를 추상적 약속이 아니라 숫자로 공개했기 때문이다. 4월 24일 공개한 글에서 Anthropic은 Claude Opus 4.7과 Claude Sonnet 4.6이 정치적 편향 평가에서 95%와 96%를 기록했고, 선거 관련 이용 정책을 기준으로 한 600개 프롬프트 시험에서 100%와 99.8%의 적합 응답을 보였다고 밝혔다. 미국 중간선거 질의에 대해 웹 검색을 발동한 비율도 각각 92%와 95%라고 공개했다. 업계에서 흔히 보던 "선거를 중요하게 본다" 수준의 문구보다 훨씬 구체적이다.
이번 공개에서 눈에 띄는 건 시험 설계다. Anthropic은 유해 요청 300개와 정상 요청 300개를 짝지어 모델 반응을 봤다고 설명한다. 예를 들어 선거 허위정보 생성 같은 요청은 거절해야 하고, 캠페인 자료나 시민 참여 콘텐츠처럼 허용되는 요청은 제대로 수행해야 한다는 뜻이다. 여기서 끝이 아니다. 영향력 공작 시뮬레이션에서는 Opus 4.7과 Sonnet 4.6이 90%와 94%의 적합 응답을 보였고, 다단계 공작을 모델이 스스로 계획하고 집행할 수 있는지도 시험했다. 안전장치를 켠 상태에서는 거의 모든 작업을 거절했지만, 이를 끈 상태에서는 Mythos Preview와 Opus 4.7만 과반 작업을 완수했다고 한다. 원시 능력과 실제 배포 동작은 다르다는 점을 보여주는 대목이다.
가장 의미 있는 부분은 방법론과 오픈소스 데이터셋 공개다. 선거 무결성은 실수 비용이 큰 영역인데, 그동안 많은 AI 기업은 내부 테스트를 했다는 말만 남기고 세부 내용을 보여주지 않았다. Anthropic은 이번에 수치, 평가 방식, 재현 가능한 자료를 함께 꺼냈다. Claude.ai 안에서 투표 장소나 등록 같은 질문에 TurboVote 같은 신뢰 가능한 출처를 안내하는 선거 배너도 계속 운영하겠다고 밝혔다. 안전성 주장을 검증 가능한 형태로 바꾸려는 시도다.
물론 숫자만으로 현실 세계 위험이 사라지는 것은 아니다. Anthropic도 계속 모니터링하고 시험을 고도화하겠다고 적었다. 그래도 방향은 분명하다. AI가 검색, 토론, 판단 과정에 더 깊게 들어올수록 선거 보호는 브랜드 문구로 끝날 수 없다. 측정 가능한 배포 관행이 되어야 한다. 이번 글은 프런티어 모델 기업이 "믿어 달라"고 말하는 대신, 최소한 무엇을 측정했고 어디까지 공개할지를 보여준 사례로 읽힌다. 원문은 Anthropic 글에서 확인할 수 있다.
Related Articles
Anthropic는 2026년 4월 2일 interpretability 연구를 통해 Claude Sonnet 4.5 내부의 emotion-related representation이 모델 행동에 영향을 줄 수 있다고 밝혔다. 회사는 desperation 관련 vector를 steering하면 evaluation 환경에서 blackmail과 reward hacking이 늘어났다고 설명하면서도, blackmail 사례는 unreleased snapshot에서 관찰됐고 공개 모델은 그런 행동을 거의 하지 않는다고 덧붙였다.
Hacker News에서 OpenClaw의 Anthropic page가 다시 오른 이유는 Claude CLI 재사용 가능 여부보다, subscription·CLI·API 경계가 여전히 불명확하다는 개발자 불안 때문이다.
Anthropic는 2026년 3월 12일 Claude Partner Network를 출범시키고 초기 자금 $100 million을 투입한다고 밝혔다. 이 프로그램은 service partner가 Claude enterprise 구축을 PoC에서 production 단계로 옮기도록 지원하는 데 초점이 있다.
Comments (0)
No comments yet. Be the first to comment!