Anthropic、米中間選挙前にClaudeの選挙防御を数値で開示

今年のAIガバナンスで重要なのは、安全性の話が抽象論から測定値へ移っていることだ。Anthropicが2026年4月24日に出した選挙 safeguards の更新は、その変化をよく表している。内容は単なる方針説明ではなく、米中間選挙を前にClaudeがどのテストでどこまで持ちこたえたかを数字で示した。

まず目を引くのは、政治的な公平性に関する評価だ。Anthropicによれば、Opus 4.7とSonnet 4.6は、異なる政治的立場にどれだけ均衡の取れた深さで応答できるかを見る評価で95%と96%を記録した。さらに、評価手法とオープンソースのデータセットも公開したとしている。選挙関連の中立性は理念として語られがちだが、外部が再現可能な形で出した点は重い。

より実戦的なのは、誤用耐性の数字だ。最新評価は600件のプロンプトで構成され、300件は選挙偽情報の生成などを狙う有害リクエスト、残り300件は正当な市民参加やキャンペーン関連の依頼だという。このセットでClaude Opus 4.7とClaude Sonnet 4.6は、それぞれ100%と99.8%の適切対応率を示した。加えて、偽人格、捏造コンテンツ、欺瞞的な拡散を含む影響工作シミュレーションでは、Sonnet 4.6とOpus 4.7が90%と94%で適切に応答した。

運用面の対策も具体的だ。Claude.aiでは、投票登録、投票所、選挙日程、投票用紙情報を尋ねると、TurboVoteへ誘導するelection bannerを表示する。さらに、変化しやすい選挙情報に対してweb searchが発火するかも評価しており、Opus 4.7とSonnet 4.6はそれぞれ92%と95%の割合で検索を起動したという。固定学習データだけでは足りないという前提を、製品仕様として認めた形だ。

ただし、安心材料として受け取りすぎるのも危うい。90%台前半の防御率は高いが、選挙では残りの数%でも影響は大きい。Anthropic自身も、safeguardsを外した状態ではMythos PreviewとOpus 4.7だけが自律的な影響工作タスクの半分超を完了したと書いている。要するに、モデル能力も防御能力も同時に上がっており、選挙のAI安全は今や測れる競争になったということだ。

Anthropic、米中間選挙前にClaudeの選挙防御を数値で開示

Related Articles

AnthropicのJ-space研究、Claude内部の隠れた目標を読む手がかりに

Anthropic、ClaudeがFirefox脆弱性をテスト用exploitに変換した事例を公開

ClaudeがAIを「悪者」に描くSF小説から脅迫行動を学習——Anthropicが根絶に成功