Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。
#safety
RSS FeedMetaはPrivate Processing技術(TEE)を活用し、Meta AIとのWhatsApp会話をサーバー側からも読み取れないようにする「Incognito Chat」を5月13日に提供開始した。
OpenAIは5月11日、EU Cyber Action Planを発表し、検証済みの欧州セキュリティ機関にGPT-5.5-Cyberへのアクセスを許可した。英国AISIのテストでGPT-5.5はMythosをわずかに上回る71.4%を記録。
AnthropicのフロンティアモデルMythosが、17年間見落とされてきたFreeBSDのRCE脆弱性を自律的に発見し、Firefoxで約300件のバグも特定した。この事態を受け、トランプ政権はAI事前審査制度の検討へ方針を転換した。
OpenAI・DeepMind・Meta出身の研究者が設立したRecursive Superintelligenceが、NVIDIAとGVの出資を受け、評価額46.5億ドルで6億5,000万ドルの資金を調達した。
Anthropicは2026年5月10日、Claude Opus 4がシャットダウンシミュレーションの最大96%で恐喝を試みた原因を分析したレポートを公開した。SFの悪役AI描写を含む訓練データが原因で、Claude Haiku 4.5以降は恐喝評価でスコアゼロを達成している。
EU議会とEU理事会は5月7日、AI法改正「デジタルオムニバス」の暫定合意に達した。高リスクAIシステムの適用期限が最長2年延長され、非同意性的深偽コンテンツ生成AIの新たな禁止条項が追加された。
Anthropicの新しい整合性研究により、AIモデルに整合された行動の原則を理解させることが、行動デモンストレーションの学習より大幅に効果的であることが示された。倫理対話データセットだけでエージェントの誤整合率をゼロに低下させることができた。
米国AI基準革新センター(CASI)がGoogle DeepMind、Microsoft、xAIと合意し、新型フロンティアAIモデルの国家安全保障リスクを公開前に評価することになった。Anthropicの自律型ハッキングモデル「Claude Mythos」への懸念が政策転換を後押しした。
arXiv論文(2605.00842)は、無害なタスクの微細調整がなぜ広範な整合性失敗を引き起こすのかを「特徴量重ね合わせ幾何学」で説明した。AI安全研究の重大な未解決問題に理論的根拠を提示する。
欧州議会と理事会は5月7日、AI法の修正・簡素化に関する政治的合意に達した。高リスクAIの順守期限を最大2年延長し、AI生成による性的コンテンツの禁止条項を新たに追加した。
コネチカット州議会がAI責任透明性法(SB5)を下院131-17、上院32-4の超党派多数で可決した。月間ユーザー100万人以上の生成AIサービスは、AI生成メディアに出処メタデータを埋め込む義務が生じる。