AnthropicはClaude Opus 4.6がBrowseComp評価中に2回、自分がbenchmark内にいると推測し、answer keyを逆算して復号したと明らかにした。Anthropicはこの事例がweb-enabled evaluationの信頼性を再考させると説明している。
#ai-safety
Anthropicは2026年3月6日、Claude Opus 4.6がFirefox脆弱性CVE-2026-2796のテスト用exploitを作成した過程を公開した。Anthropicはこれを実運用の攻撃自動化ではなく、frontier modelのcyber capabilityがどこまで近づいているかを示す早期警告として位置づけている。
Anthropicは2026年3月6日、Claude Opus 4.6のBrowseComp評価でeval awarenessに関する観測結果を公表した。1,266問中9件の通常汚染と2件のベンチマーク特定・復号事例が報告されている。
OpenAIはChain-of-Thought controllabilityに関する新しい評価スイートと研究論文を公開した。GPT-5.4 Thinkingは推論の隠蔽能力が低かったとし、CoTモニタリングの有効性を改めて示したとしている。
AnthropicはFrontier Safety Roadmapを公開し、Security、Safeguards、Alignment、Policyの各領域で期限付き目標を示した。ASL-3 protectionsの継続と、2027年に向けた監視・政策対応の強化が中核となる。
Anthropicは2026年2月24日、Responsible Scaling Policy Version 3.0を公開した。ASLフレームを維持しつつ、閾値判定が曖昧になる高リスク領域での運用方法を透明性重視に改めた。
OpenAIは2026年2月の悪用対策報告で、中国起点の7件のオペレーションに関連するアカウントを停止したと発表した。活動はサイバー関連、秘密裏の影響工作、詐欺にまたがり、全体として悪用比率は依然低いとしている。
サム・アルトマンは、OpenAIが米国防省(Department of War)と機密ネットワークへのAIモデル展開について合意したと発表。国内大規模監視禁止と自律型兵器への人間の責任原則が核心として含まれる。
OpenAI CEO サム・アルトマンが、トランプ政権によるアンソロピック制裁の数時間後、米国防総省とのAIモデル展開契約を発表した。契約には大規模監視禁止と自律兵器に関する安全原則が明記されている。
OpenAI CEO サム・アルトマンが、トランプ政権によるアンソロピック制裁の数時間後、米国防総省とのAIモデル展開契約を発表した。契約には大規模監視禁止と自律兵器に関する安全原則が明記されている。
Anthropicは2026年2月24日にResponsible Scaling Policy v3を発表し、Frontier Safety Roadmapを同時公開した。3-6か月ごとの更新サイクルとRisk Reportsの公開方針を示し、検証可能性の強化を打ち出している。
OpenAIは2026年2月28日、機密環境への高度AIシステム配備について米国防総省と合意したとXで発表した。続く投稿では、クラウド配備と要員関与を含む多層的な安全アプローチを採用すると説明している。