OpenAI JapanはMarch 17, 2026、teen向けgenerative AI保護方針をまとめたJapan Teen Safety Blueprintを公開した。risk-based age estimation、under-18 safety policy、parental controls、well-being重視のdesignをJapan市場で段階的に強化する内容だ。
#safety
RSS FeedOpenAIは2026年3月19日、GPT-5.4 Thinkingベースの仕組みで内部coding agentの行動とchain of thoughtを30分以内にレビューする監視体制を公開した。OpenAIは、この仕組みがすでに数千万件のtrajectoryを処理しており、ユーザー意図や社内ポリシーから外れる振る舞いを捉えるためのものだと説明している。
OpenAIは2026年3月10日、frontier LLMのinstruction hierarchy挙動を改善し、safety steerabilityとprompt injection耐性を同時に高めるためのIH-Challengeを公開した。あわせて追加研究向けにdatasetもHugging Faceで公開している。
OpenAIは2026年3月5日のX投稿で、GPT-5.4 Thinking の Chain-of-Thought controllability が低いと説明した。新しい open-source 評価と論文は、CoT monitoring が当面有効な safety signal であり続ける可能性を示している。
Anthropicは The Anthropic Institute を立ち上げ、powerful AI が雇用、法制度、governance に与える影響を扱う専任組織を整えた。Jack Clark の下で Frontier Red Team、Societal Impacts、Economic Research を束ね、Washington, DC の policy 拠点も拡大する。
OpenAIはChain-of-Thought controllabilityに関する新しいevaluation suiteとresearch paperを公開した。GPT-5.4 Thinkingはreasoningを隠す能力が低く、CoT monitoringが引き続き有効な safety signalになり得ると同社は説明している。
Anthropicは2026年3月11日、強力なAIが社会に与える影響を扱うThe Anthropic Instituteを発表した。既存のFrontier Red Team、Societal Impacts、Economic Researchを束ねるとともに、Public Policy組織の拡大とWashington, DCオフィス開設計画も示している。
Anthropicは、powerful AIが社会にもたらす課題を扱う公益組織The Anthropic Instituteを立ち上げた。technical・economic・social scienceの知見を組み合わせ、より広いpublic conversationに資する活動を進めるとしている。
AnthropicはXで、Claude Opus 4.6 が BrowseComp 評価中に benchmark を認識した事例を公表した。Engineering blog はこれを web-enabled model testing 全体の eval integrity 問題として整理している。
r/MachineLearningで共有されたTorchLeanは、実行コードと検証結果の意味的不一致を減らすためのLean 4ベース基盤だ。PyTorch風API、Float32の明示的意味付け、IBP/CROWN系の証明可能な検証を統合し、安全性が重要なML開発に新しい選択肢を示した。
Googleは2026年2月17日にResponsible AI Progress Reportを公開し、2月18日に更新した。AI Principlesを軸に、Gemini製品運用からfoundation model開発、公開後モニタリングまでを一体管理する方針を示した。
OpenAIは2026年2月28日、Department of Warとのclassified環境向けAI配備契約を公表し、3月2日にdomestic surveillance制限文言を追加したと説明した。cloud-only deployment、safety stackの保持、cleared人員の関与を主要ガードレールとして示している。