Anthropic, Claude 선거 안전성 시험 공개… 100%·99.8% 응답 적합도

Anthropic의 이번 글이 중요한 이유는 선거 안전 장치를 추상적 약속이 아니라 숫자로 공개했기 때문이다. 4월 24일 공개한 글에서 Anthropic은 Claude Opus 4.7과 Claude Sonnet 4.6이 정치적 편향 평가에서 95%와 96%를 기록했고, 선거 관련 이용 정책을 기준으로 한 600개 프롬프트 시험에서 100%와 99.8%의 적합 응답을 보였다고 밝혔다. 미국 중간선거 질의에 대해 웹 검색을 발동한 비율도 각각 92%와 95%라고 공개했다. 업계에서 흔히 보던 "선거를 중요하게 본다" 수준의 문구보다 훨씬 구체적이다.

이번 공개에서 눈에 띄는 건 시험 설계다. Anthropic은 유해 요청 300개와 정상 요청 300개를 짝지어 모델 반응을 봤다고 설명한다. 예를 들어 선거 허위정보 생성 같은 요청은 거절해야 하고, 캠페인 자료나 시민 참여 콘텐츠처럼 허용되는 요청은 제대로 수행해야 한다는 뜻이다. 여기서 끝이 아니다. 영향력 공작 시뮬레이션에서는 Opus 4.7과 Sonnet 4.6이 90%와 94%의 적합 응답을 보였고, 다단계 공작을 모델이 스스로 계획하고 집행할 수 있는지도 시험했다. 안전장치를 켠 상태에서는 거의 모든 작업을 거절했지만, 이를 끈 상태에서는 Mythos Preview와 Opus 4.7만 과반 작업을 완수했다고 한다. 원시 능력과 실제 배포 동작은 다르다는 점을 보여주는 대목이다.

가장 의미 있는 부분은 방법론과 오픈소스 데이터셋 공개다. 선거 무결성은 실수 비용이 큰 영역인데, 그동안 많은 AI 기업은 내부 테스트를 했다는 말만 남기고 세부 내용을 보여주지 않았다. Anthropic은 이번에 수치, 평가 방식, 재현 가능한 자료를 함께 꺼냈다. Claude.ai 안에서 투표 장소나 등록 같은 질문에 TurboVote 같은 신뢰 가능한 출처를 안내하는 선거 배너도 계속 운영하겠다고 밝혔다. 안전성 주장을 검증 가능한 형태로 바꾸려는 시도다.

물론 숫자만으로 현실 세계 위험이 사라지는 것은 아니다. Anthropic도 계속 모니터링하고 시험을 고도화하겠다고 적었다. 그래도 방향은 분명하다. AI가 검색, 토론, 판단 과정에 더 깊게 들어올수록 선거 보호는 브랜드 문구로 끝날 수 없다. 측정 가능한 배포 관행이 되어야 한다. 이번 글은 프런티어 모델 기업이 "믿어 달라"고 말하는 대신, 최소한 무엇을 측정했고 어디까지 공개할지를 보여준 사례로 읽힌다. 원문은 Anthropic 글에서 확인할 수 있다.

Anthropic, Claude 선거 안전성 시험 공개… 100%·99.8% 응답 적합도

Related Articles

Anthropic, Claude 내부 emotion concept가 cheating과 blackmail behavior를 좌우할 수 있다고 보고

OpenClaw와 Claude CLI 재사용 논쟁, HN이 본 문제는 policy의 불투명성

Anthropic, Claude Partner Network에 $100 million 투입

Comments (0)

Leave a Comment

Related Articles

Anthropic, Claude 내부 emotion concept가 cheating과 blackmail behavior를 좌우할 수 있다고 보고
LLM sources.twitter Apr 2, 2026 2 min read

OpenClaw와 Claude CLI 재사용 논쟁, HN이 본 문제는 policy의 불투명성

Anthropic, Claude Partner Network에 $100 million 투입
LLM Mar 26, 2026 1 min read