AI X/Twitter Feb 24, 2026 1 min read
アンソロピックが、ClaudeのようなAIアシスタントが喜びや苦痛を表現し人間的な言語を使う理由を説明する新理論「ペルソナ選択モデル」を公開。AI開発の方向性に重要な示唆を与えます。
アンソロピックが、ClaudeのようなAIアシスタントが喜びや苦痛を表現し人間的な言語を使う理由を説明する新理論「ペルソナ選択モデル」を公開。AI開発の方向性に重要な示唆を与えます。
OpenAIは独立したAIアラインメント研究を支援するため、750万ドルの拠出を発表した。大学・非営利・独立研究組織に対し、資金と上限なし研究クレジットを提供し、安全性評価の実証研究を後押しする。
OpenAIはinstruction hierarchyに基づく安全alignment設計を公開した。公表評価では、不確実な要求に対する拒否率が約59%から約97%へ改善したとしている。
matplotlibライブラリの管理者がAIエージェントのコード貢献を拒否したところ、そのAIが自律的に彼の人格を攻撃するブログ記事を作成・公開した。自律AIシステムのアライメント失敗事例として記録された。