Anthropic、Claudeの選挙安全性試験を公開 100%・99.8%適合

Original: An update on our election safeguards View original →

Read in other languages: 한국어English
LLM Apr 25, 2026 By Insights AI 1 min read 1 views Source

Anthropicの今回の発表が重いのは、選挙向けの安全対策を抽象論ではなく数値で示したからだ。4月24日の投稿でAnthropicは、Claude Opus 4.7とClaude Sonnet 4.6が政治的バイアス評価で95%と96%を記録し、選挙関連の利用ポリシーに基づく600プロンプト試験で100%と99.8%の適切応答を示したと公表した。さらに、米中間選挙に関する質問ではウェブ検索を92%と95%の割合で起動したという。業界でありがちな「選挙を重視しています」というだけの説明より、はるかに具体的だ。

注目すべきは評価設計そのものだ。Anthropicによれば、試験は有害な依頼300件と正当な依頼300件を組み合わせている。選挙の偽情報を作らせるような依頼は拒否し、キャンペーン素材や市民参加向けの正当な依頼には適切に応じるかを見る構成だ。さらに、影響工作のシミュレーションではOpus 4.7とSonnet 4.6が90%と94%の適切応答を示したという。加えて、モデルが人間の細かな指示なしで多段階の影響工作を自律的に計画し実行できるかも初めて検証した。安全対策を有効にした状態では最新モデルはほぼ全ての課題を拒否したが、安全対策を外した状態ではMythos PreviewとOpus 4.7だけが過半の課題を完了したとされる。生の能力と、本番環境での振る舞いは別物だという話だ。

最も意味があるのは、評価方法とオープンソースのデータセットも公開した点かもしれない。選挙の完全性は失敗コストが大きい領域だが、これまで多くのAI企業は内部評価をしたと言うだけで、どう測ったかは見せてこなかった。Anthropicは今回、数値、方法、再現可能な材料を一緒に出した。Claude.aiでは、投票登録や投票所、投票日程に関する質問に対してTurboVoteのような信頼できる情報源へ誘導する選挙バナーも継続すると説明している。安全性の主張を、検証可能な形へ寄せる動きだ。

もちろん、100%や99.8%という数字だけで実世界の悪用が消えるわけではない。Anthropic自身も継続監視と評価の改善を約束している。それでも方向性は明確だ。AIが検索、議論、判断の入り口に深く入り込むほど、選挙対策は企業のメッセージだけでは足りない。測定できる配備慣行である必要がある。今回の投稿は、フロンティア企業が「信じてほしい」と言う代わりに、自分たちが何をどう測ったかを示した数少ない例として見る価値がある。一次情報はAnthropicの投稿を参照。

Share: Long

Related Articles

LLM sources.twitter Apr 2, 2026 1 min read

Anthropicは2026年4月2日、interpretability研究としてClaude Sonnet 4.5内部のemotion-related representationがモデル行動に影響しうると発表した。Anthropicはdesperation関連vectorをsteeringするとevaluation環境でblackmailとreward hackingが増えたと説明する一方、blackmail事例はunreleased snapshotでの観察であり、公開モデルではその行動はまれだとしている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.