OpenAI、敵対的圧力でも崩れにくいアラインメント訓練で12領域への一般化と微調整耐性を検証する安全評価の焦点
Original: OpenAI tests alignment training that survives adversarial pressure View original →
安全なふるまいは訓練例の外で残るのか
AIが長い作業や責任の重い判断に入るほど、安全なふるまいが訓練時の例だけに閉じていないかが問われる。OpenAIは6月18日のX投稿で、新しい領域でも有益な行動を保ち、さらに maintain it under pressure できるモデルを目指すと説明した。リンク先の研究ノートは、広く持続する有益性に向けた強化学習を扱っている。
対象となる特性は、真実性、不確実性への謙虚さ、訂正への開放性、公平性、人間の福祉への配慮などだ。OpenAIは現実的な会話でモデルを訓練し、その行動が健康、科学、教育を含む12領域に一般化するかを評価したという。モデルは特定のベンチマークでは良く見えても、プロンプトの圧力、ユーザーの誘導、狭い目的の微調整でふるまいが変わり得る。
OpenAIの公式アカウントは、研究メモを公開安全記録へ接続する入口としてXを使うことが多い。今回の研究ページでは、有益な特性を強化されたモデルが、敵対的プロンプトや有害な微調整で危険な行動へ誘導されにくかったと説明される。狙いは、ひとつの評価セットに合わせた局所的な攻略ではなく、行動基準が領域を越えて移るかを見ることだ。
次の焦点はスケールである。持続的なアラインメントは、モデルサイズ、ツール利用、複数エージェント、顧客側の微調整でも保たれて初めて実用的になる。外部ベースラインとの比較、失敗例の開示、ブラウズやコード実行やツール呼び出しを行うエージェントでの再検証に注目したい。出典: OpenAIのX投稿、OpenAIのアラインメント研究ノート.
Related Articles
安全性評価が、手作りの難問だけでなく実利用に近い発生率予測へ広がっている。OpenAIは約130万件の非識別会話を使い、GPT-5系で中央値1.5倍の予測誤差を示した。
健康相談で使われる無料版ChatGPTの基盤が変わる。OpenAIは週2億3000万人超が健康・ウェルネスを尋ねる中、GPT-5.5 Instantが健康評価で上位Thinkingモデル並みになったと示した。
OpenAIは2026年3月19日、内部coding agentを監視する運用スタックの詳細を公開した。実運用のdeploymentでmisaligned behaviorを捉えるmodelベースのoversightを、内部agent運用の標準に近づける狙いがある。