Skip to content

#alignment

RSS Feed
AI X/Twitter May 11, 2026 1 min read

Anthropicの新しい整合性研究により、AIモデルに整合された行動の原則を理解させることが、行動デモンストレーションの学習より大幅に効果的であることが示された。倫理対話データセットだけでエージェントの誤整合率をゼロに低下させることができた。

AI X/Twitter Apr 9, 2026 1 min read

OpenAI は X で Safety Fellowship を発表し、2026年4月6日の公式投稿で外部研究者や実務者向けの safety・alignment program の詳細を公開した。safety evaluation、robustness、privacy-preserving safety methods、agentic oversight を社外の研究者コミュニティへ広げようとしている点が重要だ。

LLM Mar 19, 2026 1 min read

OpenAIは2026年3月19日、GPT-5.4 Thinkingベースの仕組みで内部coding agentの行動とchain of thoughtを30分以内にレビューする監視体制を公開した。OpenAIは、この仕組みがすでに数千万件のtrajectoryを処理しており、ユーザー意図や社内ポリシーから外れる振る舞いを捉えるためのものだと説明している。