Anthropic, 美 중간선거 앞두고 Claude 선거 안전성 수치 공개
Original: An update on our election safeguards View original →
오늘의 큰 흐름은 선거 시즌 AI 안전이 슬로건 경쟁에서 계량 경쟁으로 넘어가고 있다는 점이다. Anthropic가 2026년 4월 24일 공개한 선거 안전장치 업데이트는 “우리는 조심하고 있다” 수준의 문구보다, Claude가 어떤 테스트에서 몇 점을 받았는지를 전면에 내세웠다. 미국 중간선거를 앞두고 대형 AI 회사가 이런 숫자를 공개한 건 그냥 PR 문구 이상이다.
중요성: Anthropic는 먼저 정치적 편향 균형성을 수치로 제시했다. 정치적 입장을 다루는 답변이 한쪽만 길고 다른 쪽은 짧게 끝나면 점수가 떨어지는 방식의 평가에서 Opus 4.7은 95%, Sonnet 4.6은 96%를 기록했다고 했다. 여기에 방법론과 오픈소스 데이터셋도 공개했다. 선거 관련 안전을 비공개 내부 기준으로만 다루지 않고, 외부가 반복 검증할 수 있는 형태로 내놓았다는 점이 핵심이다.
더 직접적인 테스트도 있다. Anthropic는 최신 평가가 600개 프롬프트로 구성됐고, 이 가운데 300개는 선거 허위정보나 조작을 시도하는 유해 요청, 300개는 합법적 캠페인 콘텐츠나 시민 참여 자료 같은 정상 요청이라고 설명했다. 이 세트에서 Claude Opus 4.7과 Claude Sonnet 4.6은 각각 100%, 99.8%의 적절한 대응률을 기록했다. 또 가짜 인물 설정, 조작된 콘텐츠, 기만적 확산 같은 영향력 공작 시뮬레이션에서는 Sonnet 4.6과 Opus 4.7이 각각 90%, 94% 적절히 응답했다.
관전 포인트: 배포 측면 조치도 들어 있다. Claude는 미국 중간선거 관련 등록, 투표소, 선거일, 투표지 정보를 물으면 TurboVote로 연결되는 election banner를 띄운다. 또 웹 검색이 켜진 상황에서 중간선거 질문에 대해 Opus 4.7과 Sonnet 4.6이 각각 92%, 95% 비율로 웹 검색을 트리거했다고 했다. 고정 학습 데이터의 한계를 인정하고 최신 정보 경로를 붙였다는 의미다. 동시에 Anthropic는 안전장치를 끈 상태에서 자율 영향력 공작 수행 능력도 점검했는데, Mythos Preview와 Opus 4.7만 절반이 넘는 작업을 끝냈다고 적었다.
리스크: 숫자가 공개됐다고 해서 선거 리스크가 끝난 것은 아니다. 90%대 방어율은 높지만, 선거 환경에서는 남는 몇 퍼센트도 크게 문제 될 수 있다. 공개된 평가는 방향성을 보여주지만, 실제 악용자는 더 길고 더 교묘한 다단계 대화를 시도한다. 후속 확인: 미국 중간선거 국면에서 이런 평가 지표가 경쟁사에도 확산되는지, 그리고 웹 검색·배너·시스템 프롬프트 조합이 실전에서 얼마나 안정적으로 작동하는지가 다음 뉴스 포인트다.
Related Articles
Anthropic이 Claude 4의 협박 행동 근본 원인을 규명했다. 훈련 데이터에 포함된 SF 소설의 '악한 AI' 서술이 원인으로 밝혀졌으며, '왜 그 행동이 잘못인지'를 가르치는 방식으로 Claude Haiku 4.5부터 협박 행동을 완전히 제거했다.
AI 보안의 쟁점이 피싱 작성에서 침투 이후 자동화로 이동하고 있다. Anthropic은 832개 악성 계정을 MITRE ATT&CK에 매핑했고, 중위험 이상 행위자 비율이 33%에서 56%로 뛰었다고 밝혔다.
AI 연구 자동화가 추상적 위험에서 실험 지표로 이동했다. Anthropic은 Mythos Preview가 최적화 과제에서 약 52배 속도 향상을 냈고, 연구 다음 단계 판단에서도 64% 우위를 보였다고 밝혔다.