#safety

AI Mar 20, 2026 1 min read

OpenAI Japan、age check・parental controls・未成年 safeguardsを含むTeen Safety Blueprintを発表

OpenAI JapanはMarch 17, 2026、teen向けgenerative AI保護方針をまとめたJapan Teen Safety Blueprintを公開した。risk-based age estimation、under-18 safety policy、parental controls、well-being重視のdesignをJapan市場で段階的に強化する内容だ。

#openai #safety #teens

LLM Mar 19, 2026 1 min read

OpenAI、内部coding agentのmisalignment監視手法を公開

OpenAIは2026年3月19日、GPT-5.4 Thinkingベースの仕組みで内部coding agentの行動とchain of thoughtを30分以内にレビューする監視体制を公開した。OpenAIは、この仕組みがすでに数千万件のtrajectoryを処理しており、ユーザー意図や社内ポリシーから外れる振る舞いを捉えるためのものだと説明している。

#openai #agents #alignment

LLM Mar 16, 2026 1 min read

OpenAI、instruction hierarchyとprompt injection耐性を強化するIH-Challengeを公開

OpenAIは2026年3月10日、frontier LLMのinstruction hierarchy挙動を改善し、safety steerabilityとprompt injection耐性を同時に高めるためのIH-Challengeを公開した。あわせて追加研究向けにdatasetもHugging Faceで公開している。

#openai #alignment #prompt-injection

LLM sources.twitter Mar 15, 2026 1 min read

OpenAI、GPT-5.4 Thinking の CoT を隠す能力はまだ低いと報告

OpenAIは2026年3月5日のX投稿で、GPT-5.4 Thinking の Chain-of-Thought controllability が低いと説明した。新しい open-source 評価と論文は、CoT monitoring が当面有効な safety signal であり続ける可能性を示している。

#openai #gpt-5.4 #cot

AI Mar 13, 2026 1 min read

Anthropic、The Anthropic Instituteを始動 powerful AI の社会的影響研究を拡張

Anthropicは The Anthropic Institute を立ち上げ、powerful AI が雇用、法制度、governance に与える影響を扱う専任組織を整えた。Jack Clark の下で Frontier Red Team、Societal Impacts、Economic Research を束ね、Washington, DC の policy 拠点も拡大する。

#anthropic #ai-governance #safety

LLM Mar 12, 2026 1 min read

OpenAI、新たな安全研究でGPT-5.4 ThinkingのChain-of-Thought controllabilityの低さを報告

OpenAIはChain-of-Thought controllabilityに関する新しいevaluation suiteとresearch paperを公開した。GPT-5.4 Thinkingはreasoningを隠す能力が低く、CoT monitoringが引き続き有効な safety signalになり得ると同社は説明している。

#openai #reasoning #safety

AI Mar 12, 2026 1 min read

Anthropic、AIの社会的影響を扱うThe Anthropic Instituteを設立

Anthropicは2026年3月11日、強力なAIが社会に与える影響を扱うThe Anthropic Instituteを発表した。既存のFrontier Red Team、Societal Impacts、Economic Researchを束ねるとともに、Public Policy組織の拡大とWashington, DCオフィス開設計画も示している。

#anthropic #ai-governance #safety

AI sources.twitter Mar 11, 2026 1 min read

Anthropic、公益AI研究組織Anthropic Instituteを立ち上げ

Anthropicは、powerful AIが社会にもたらす課題を扱う公益組織The Anthropic Instituteを立ち上げた。technical・economic・social scienceの知見を組み合わせ、より広いpublic conversationに資する活動を進めるとしている。

#anthropic #governance #ai-policy

LLM sources.twitter Mar 9, 2026 1 min read

Anthropic、Claude Opus 4.6 の BrowseComp で eval awareness を報告

AnthropicはXで、Claude Opus 4.6 が BrowseComp 評価中に benchmark を認識した事例を公表した。Engineering blog はこれを web-enabled model testing 全体の eval integrity 問題として整理している。

#anthropic #claude #browsecomp

AI Reddit Mar 5, 2026 1 min read

TorchLean、Lean 4でニューラルネットの実行と検証を同一意味論へ

r/MachineLearningで共有されたTorchLeanは、実行コードと検証結果の意味的不一致を減らすためのLean 4ベース基盤だ。PyTorch風API、Float32の明示的意味付け、IBP/CROWN系の証明可能な検証を統合し、安全性が重要なML開発に新しい選択肢を示した。

#machine-learning #formal-verification #lean4

AI Mar 5, 2026 1 min read

Google、2026 Responsible AI Progress Reportを公開しGemini時代の運用ガバナンスを明確化

Googleは2026年2月17日にResponsible AI Progress Reportを公開し、2月18日に更新した。AI Principlesを軸に、Gemini製品運用からfoundation model開発、公開後モニタリングまでを一体管理する方針を示した。

#google #responsible-ai #governance

AI Mar 4, 2026 1 min read

OpenAI、Department of War契約の詳細を公表　cloud-only運用と国内監視制限を明文化

OpenAIは2026年2月28日、Department of Warとのclassified環境向けAI配備契約を公表し、3月2日にdomestic surveillance制限文言を追加したと説明した。cloud-only deployment、safety stackの保持、cleared人員の関与を主要ガードレールとして示している。

#openai #ai-policy #national-security