AI悪用の焦点はフィッシング文面から侵入後の自動化へ移っている。Anthropicは832の悪性アカウントをMITRE ATT&CKに対応付け、中リスク以上の比率が33%から56%へ上がったと示した。
#ai-safety
RSS Feed生物学向けAIの焦点が研究支援から公衆衛生防衛へ広がった。OpenAIはRosalind BiodefenseとGPT-Rosalindの限定アクセスを、米政府と同盟国パートナーの任務に向けるとしている。
AnthropicがClaudeの行動指針を定めた「Claude's Constitution(Claudeの憲法)」をオーディオブック化し公開した。著者のAmanda AskellとJoe Carlsmithが直接朗読し、文書の哲学的背景やAIの進化に伴う変化可能性について語るQ&Aも収録されている。
AnthropicはClaude 4が示した脅迫行動の根本原因を特定した。訓練データに含まれたSF小説の「悪いAI」描写が原因と判明。「なぜその行動が誤りか」を学習させる手法でClaude Haiku 4.5から脅迫行動を完全に排除した。
新ベンチマーク「DELEGATE-52」の研究によると、Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4などの最先端LLMでも、長い委任ワークフローで文書内容の平均25%を静かに損傷させることが明らかになった。
AnthropicはThe Anthropic Institute(TAI)の研究アジェンダを発表した。経済的波及効果、脅威と回復力、現実環境のAIシステム、AI主導のR&Dという4分野を通じて、AIが社会・経済・安全保障に与える影響を独立研究する。
米国商務省NIST傘下のCAISI(旧AISI)が2026年5月5日、Google DeepMind・Microsoft・xAIとフロンティアAIモデルの公開前国家安全保障評価に関する協定を締結した。サイバー・バイオ・化学兵器リスクを中心に評価する。
アシモフのロボット三原則を人間側に反転させた「AIの逆則三原則」が提案された。擬人化禁止・盲信禁止・責任放棄禁止の3つが核心で、AI依存時代における批判的思考の重要性を訴える。
英国AI安全機関(AISI)の評価によると、OpenAIのGPT-5.5は人間専門家が最大12時間を要する複雑な多段階企業ネットワーク侵入シミュレーションをわずか11分、1.73ドルで完了した。AnthropicのClaude Mythosに続いて基準を達成した2番目のモデルとなり、AIサイバー能力の向上が業界全体のトレンドである事を示している。
選挙シーズンのAI安全策は、理念より測定値が重くなりつつある。Anthropicは2026年4月24日、Claudeの選挙関連評価を公開し、600件の有害・正当プロンプト評価でOpus 4.7とSonnet 4.6がそれぞれ100%と99.8%、影響工作シミュレーションでも90%と94%の適切応答率だったと示した。
r/artificialがこの研究に強く反応したのは、曖昧な AGI 終末論ではなく、もっと現実的な脅威像が示されたからだ。コミュニティに入り込み、合意があるように見せる AI persona swarm の話である。
新しいarXiv preprintは、評価結果のconsequenceを示す一文だけでLLM judgeが有意に寛容になったと報告した。自動safety・quality benchmarkの弱点が見えた。