Anthropic、米中間選挙前にClaudeの選挙防御を数値で開示
Original: An update on our election safeguards View original →
今年のAIガバナンスで重要なのは、安全性の話が抽象論から測定値へ移っていることだ。Anthropicが2026年4月24日に出した 選挙 safeguards の更新 は、その変化をよく表している。内容は単なる方針説明ではなく、米中間選挙を前にClaudeがどのテストでどこまで持ちこたえたかを数字で示した。
まず目を引くのは、政治的な公平性に関する評価だ。Anthropicによれば、Opus 4.7とSonnet 4.6は、異なる政治的立場にどれだけ均衡の取れた深さで応答できるかを見る評価で95%と96%を記録した。さらに、評価手法とオープンソースのデータセットも公開したとしている。選挙関連の中立性は理念として語られがちだが、外部が再現可能な形で出した点は重い。
より実戦的なのは、誤用耐性の数字だ。最新評価は600件のプロンプトで構成され、300件は選挙偽情報の生成などを狙う有害リクエスト、残り300件は正当な市民参加やキャンペーン関連の依頼だという。このセットでClaude Opus 4.7とClaude Sonnet 4.6は、それぞれ100%と99.8%の適切対応率を示した。加えて、偽人格、捏造コンテンツ、欺瞞的な拡散を含む影響工作シミュレーションでは、Sonnet 4.6とOpus 4.7が90%と94%で適切に応答した。
運用面の対策も具体的だ。Claude.aiでは、投票登録、投票所、選挙日程、投票用紙情報を尋ねると、TurboVoteへ誘導するelection bannerを表示する。さらに、変化しやすい選挙情報に対してweb searchが発火するかも評価しており、Opus 4.7とSonnet 4.6はそれぞれ92%と95%の割合で検索を起動したという。固定学習データだけでは足りないという前提を、製品仕様として認めた形だ。
ただし、安心材料として受け取りすぎるのも危うい。90%台前半の防御率は高いが、選挙では残りの数%でも影響は大きい。Anthropic自身も、safeguardsを外した状態ではMythos PreviewとOpus 4.7だけが自律的な影響工作タスクの半分超を完了したと書いている。要するに、モデル能力も防御能力も同時に上がっており、選挙のAI安全は今や測れる競争になったということだ。
Related Articles
r/artificialがこの研究に強く反応したのは、曖昧な AGI 終末論ではなく、もっと現実的な脅威像が示されたからだ。コミュニティに入り込み、合意があるように見せる AI persona swarm の話である。
Anthropicの新しい実験が重要なのは、モデル性能がそのまま金銭価値に変わる場面を示したからだ。69人の社内市場でClaudeエージェントは186件、4,000ドル超の取引を成立させ、Opus側はより有利な価格を得ても利用者はほとんど不公平さを感じなかった。
重要なのは、agentが毎回状態を失う問題をmanaged product側で吸収し始めたことだ。Anthropicは4月23日にpublic betaへ入れ、agentがあらゆるsessionから学べると書いた。
Comments (0)
No comments yet. Be the first to comment!