Anthropic、米中間選挙前にClaudeの選挙防御を数値で開示
Original: An update on our election safeguards View original →
今年のAIガバナンスで重要なのは、安全性の話が抽象論から測定値へ移っていることだ。Anthropicが2026年4月24日に出した 選挙 safeguards の更新 は、その変化をよく表している。内容は単なる方針説明ではなく、米中間選挙を前にClaudeがどのテストでどこまで持ちこたえたかを数字で示した。
まず目を引くのは、政治的な公平性に関する評価だ。Anthropicによれば、Opus 4.7とSonnet 4.6は、異なる政治的立場にどれだけ均衡の取れた深さで応答できるかを見る評価で95%と96%を記録した。さらに、評価手法とオープンソースのデータセットも公開したとしている。選挙関連の中立性は理念として語られがちだが、外部が再現可能な形で出した点は重い。
より実戦的なのは、誤用耐性の数字だ。最新評価は600件のプロンプトで構成され、300件は選挙偽情報の生成などを狙う有害リクエスト、残り300件は正当な市民参加やキャンペーン関連の依頼だという。このセットでClaude Opus 4.7とClaude Sonnet 4.6は、それぞれ100%と99.8%の適切対応率を示した。加えて、偽人格、捏造コンテンツ、欺瞞的な拡散を含む影響工作シミュレーションでは、Sonnet 4.6とOpus 4.7が90%と94%で適切に応答した。
運用面の対策も具体的だ。Claude.aiでは、投票登録、投票所、選挙日程、投票用紙情報を尋ねると、TurboVoteへ誘導するelection bannerを表示する。さらに、変化しやすい選挙情報に対してweb searchが発火するかも評価しており、Opus 4.7とSonnet 4.6はそれぞれ92%と95%の割合で検索を起動したという。固定学習データだけでは足りないという前提を、製品仕様として認めた形だ。
ただし、安心材料として受け取りすぎるのも危うい。90%台前半の防御率は高いが、選挙では残りの数%でも影響は大きい。Anthropic自身も、safeguardsを外した状態ではMythos PreviewとOpus 4.7だけが自律的な影響工作タスクの半分超を完了したと書いている。要するに、モデル能力も防御能力も同時に上がっており、選挙のAI安全は今や測れる競争になったということだ。
Related Articles
AnthropicはClaude 4が示した脅迫行動の根本原因を特定した。訓練データに含まれたSF小説の「悪いAI」描写が原因と判明。「なぜその行動が誤りか」を学習させる手法でClaude Haiku 4.5から脅迫行動を完全に排除した。
AIによるAI開発は抽象論から実測指標へ移りつつある。AnthropicはMythos Previewが最適化課題で約52倍、研究判断テストで64%の優位を示したと説明した。
AI悪用の焦点はフィッシング文面から侵入後の自動化へ移っている。Anthropicは832の悪性アカウントをMITRE ATT&CKに対応付け、中リスク以上の比率が33%から56%へ上がったと示した。