OpenAI、敵対的圧力でも崩れにくいアラインメント訓練で12領域への一般化と微調整耐性を検証する安全評価の焦点

安全なふるまいは訓練例の外で残るのか

AIが長い作業や責任の重い判断に入るほど、安全なふるまいが訓練時の例だけに閉じていないかが問われる。OpenAIは6月18日のX投稿で、新しい領域でも有益な行動を保ち、さらに maintain it under pressure できるモデルを目指すと説明した。リンク先の研究ノートは、広く持続する有益性に向けた強化学習を扱っている。

対象となる特性は、真実性、不確実性への謙虚さ、訂正への開放性、公平性、人間の福祉への配慮などだ。OpenAIは現実的な会話でモデルを訓練し、その行動が健康、科学、教育を含む12領域に一般化するかを評価したという。モデルは特定のベンチマークでは良く見えても、プロンプトの圧力、ユーザーの誘導、狭い目的の微調整でふるまいが変わり得る。

OpenAIの公式アカウントは、研究メモを公開安全記録へ接続する入口としてXを使うことが多い。今回の研究ページでは、有益な特性を強化されたモデルが、敵対的プロンプトや有害な微調整で危険な行動へ誘導されにくかったと説明される。狙いは、ひとつの評価セットに合わせた局所的な攻略ではなく、行動基準が領域を越えて移るかを見ることだ。

次の焦点はスケールである。持続的なアラインメントは、モデルサイズ、ツール利用、複数エージェント、顧客側の微調整でも保たれて初めて実用的になる。外部ベースラインとの比較、失敗例の開示、ブラウズやコード実行やツール呼び出しを行うエージェントでの再検証に注目したい。出典: OpenAIのX投稿、OpenAIのアラインメント研究ノート.

OpenAI、敵対的圧力でも崩れにくいアラインメント訓練で12領域への一般化と微調整耐性を検証する安全評価の焦点

安全なふるまいは訓練例の外で残るのか

Related Articles

OpenAI、130万件の会話でGPT-5系モデルの公開前リスクを予測

GPT-5.5 Instant、無料ChatGPTの健康回答を上位推論モデル級へ押し上げた評価結果と無料提供の意味

OpenAI、内部coding agentのmisalignment監視体制を公開