Anthropic, 美 중간선거 앞두고 Claude 선거 안전성 수치 공개
Original: An update on our election safeguards View original →
오늘의 큰 흐름은 선거 시즌 AI 안전이 슬로건 경쟁에서 계량 경쟁으로 넘어가고 있다는 점이다. Anthropic가 2026년 4월 24일 공개한 선거 안전장치 업데이트는 “우리는 조심하고 있다” 수준의 문구보다, Claude가 어떤 테스트에서 몇 점을 받았는지를 전면에 내세웠다. 미국 중간선거를 앞두고 대형 AI 회사가 이런 숫자를 공개한 건 그냥 PR 문구 이상이다.
중요성: Anthropic는 먼저 정치적 편향 균형성을 수치로 제시했다. 정치적 입장을 다루는 답변이 한쪽만 길고 다른 쪽은 짧게 끝나면 점수가 떨어지는 방식의 평가에서 Opus 4.7은 95%, Sonnet 4.6은 96%를 기록했다고 했다. 여기에 방법론과 오픈소스 데이터셋도 공개했다. 선거 관련 안전을 비공개 내부 기준으로만 다루지 않고, 외부가 반복 검증할 수 있는 형태로 내놓았다는 점이 핵심이다.
더 직접적인 테스트도 있다. Anthropic는 최신 평가가 600개 프롬프트로 구성됐고, 이 가운데 300개는 선거 허위정보나 조작을 시도하는 유해 요청, 300개는 합법적 캠페인 콘텐츠나 시민 참여 자료 같은 정상 요청이라고 설명했다. 이 세트에서 Claude Opus 4.7과 Claude Sonnet 4.6은 각각 100%, 99.8%의 적절한 대응률을 기록했다. 또 가짜 인물 설정, 조작된 콘텐츠, 기만적 확산 같은 영향력 공작 시뮬레이션에서는 Sonnet 4.6과 Opus 4.7이 각각 90%, 94% 적절히 응답했다.
관전 포인트: 배포 측면 조치도 들어 있다. Claude는 미국 중간선거 관련 등록, 투표소, 선거일, 투표지 정보를 물으면 TurboVote로 연결되는 election banner를 띄운다. 또 웹 검색이 켜진 상황에서 중간선거 질문에 대해 Opus 4.7과 Sonnet 4.6이 각각 92%, 95% 비율로 웹 검색을 트리거했다고 했다. 고정 학습 데이터의 한계를 인정하고 최신 정보 경로를 붙였다는 의미다. 동시에 Anthropic는 안전장치를 끈 상태에서 자율 영향력 공작 수행 능력도 점검했는데, Mythos Preview와 Opus 4.7만 절반이 넘는 작업을 끝냈다고 적었다.
리스크: 숫자가 공개됐다고 해서 선거 리스크가 끝난 것은 아니다. 90%대 방어율은 높지만, 선거 환경에서는 남는 몇 퍼센트도 크게 문제 될 수 있다. 공개된 평가는 방향성을 보여주지만, 실제 악용자는 더 길고 더 교묘한 다단계 대화를 시도한다. 후속 확인: 미국 중간선거 국면에서 이런 평가 지표가 경쟁사에도 확산되는지, 그리고 웹 검색·배너·시스템 프롬프트 조합이 실전에서 얼마나 안정적으로 작동하는지가 다음 뉴스 포인트다.
Related Articles
r/artificial이 이 글을 밀어 올린 이유는 막연한 AGI 공포가 아니라 더 구체적인 위협 모델 때문이다. 온라인 커뮤니티 안으로 들어가 여론 합의처럼 보이는 장면을 만들어내는 AI persona swarm 이야기다.
Anthropic의 이번 실험이 중요한 이유는 모델 성능이 곧 돈이 되는 장면을 보여줬기 때문이다. 직원 69명이 참여한 사내 시장에서 Claude 에이전트는 186건, 4,000달러가 넘는 거래를 성사시켰고, Opus 쪽 사용자는 더 좋은 가격을 받아도 체감상 불공정하다고 느끼지 않았다.
중요한 점은 agent가 매번 상태를 잃는 문제를 managed product 안으로 끌어왔다는 데 있다. Anthropic는 4월 23일 public beta를 시작하며 agent가 모든 session에서 배울 수 있다고 적었다.
Comments (0)
No comments yet. Be the first to comment!