AI Reddit Feb 19, 2026 1 min read
r/singularityで拡散したAnthropicの2026-02-18研究は、Claude Codeとpublic APIの実データを基に、自律実行時間、auto-approve傾向、リスク領域での利用状況を提示した。
r/singularityで拡散したAnthropicの2026-02-18研究は、Claude Codeとpublic APIの実データを基に、自律実行時間、auto-approve傾向、リスク領域での利用状況を提示した。
OpenAIはinstruction hierarchyに基づく安全alignment設計を公開した。公表評価では、不確実な要求に対する拒否率が約59%から約97%へ改善したとしている。
Microsoft AI Safetyチームが単一プロンプトで15の主要LLMの安全性アライメントを無力化するGRP-Obliteration攻撃を発見。GPT-OSS-20Bの攻撃成功率が13%から93%に急増した。