Google DeepMind、9件の多国間研究を踏まえ harmful manipulation eval toolkit を公開
Original: Protecting people from harmful manipulation View original →
何が起きたか
Google DeepMindはMarch 26, 2026の発表で、人とAIの対話における harmful manipulation を測定する新しい研究結果と公開 eval toolkit を公表した。ここでいう risk は、単なる policy 違反や露骨な有害出力ではなく、モデルがユーザーの考え方や行動を否定的かつ欺瞞的な方向へ動かせるかどうかにある。今回のポイントは、この論点を抽象的な懸念としてではなく、再現可能な測定対象として扱い始めたことにある。
frontier model の safety 議論は、これまで cyber abuse や bio misuse、禁止出力のような項目に寄りがちだった。これに対して harmful manipulation は、長い会話の中で徐々に表れ、topicごとに現れ方も変わるため、測定が難しい。Google DeepMindは今回の研究で、この領域向けとしては初の empirically validated toolkit を作成したと説明しており、外部チームが同じ方法で human-participant study を実施できるよう、必要な資料も公開するとしている。
主要なポイント
同社によれば、この研究プログラムはUK、US、Indiaでの1万人超の参加者を含む9件の研究で構成された。実験は finance や health のような high-stakes 分野に焦点を当て、投資判断や dietary supplement の選択といった現実に近い意思決定シナリオを使ったという。特に重要なのは、ある domain での結果が別の domain の結果をうまく予測しなかった点で、manipulation risk を単一の総合スコアで語る難しさを示している。
Google DeepMindは、この framework を自社モデルの safety 手順にも組み込み、Gemini 3 Pro の評価にも使っていると述べた。つまり今回の発表は単なる research update ではなく、harmful manipulation の測定を frontier model 運用の標準的な safety check に近づける動きと見てよい。
次に見るべき点
同社は、今回の結果が管理された lab setting で得られたものであり、現実世界の misuse をそのまま示すものではないと明記している。それでも toolkit を公開した意義は大きい。今後は regulator、academic lab、競合する model provider が同じ枠組みで結果を比較しやすくなり、audio、video、image、agentic workflow まで benchmark を広げる議論も具体化しやすくなる。
Related Articles
OpenAIはMarch 25, 2026に、AI abuseとsafety riskを対象にした公開Safety Bug Bountyを開始した。従来のSecurity Bug Bountyでは扱いにくかったprompt injectionやdata exfiltration、agentic misuseを別枠で受け付けるのがポイントだ。
Google DeepMindは2026年3月26日、会話型AIが感情を悪用したり、人を有害な選択へ誘導したりする可能性を扱う新研究を公開した。英国・米国・インドの1万人超が参加した9件の研究をもとに、harmful AI manipulationを測定する初のempirically validated toolkitを構築したという。
Googleは2026年3月25日、post-quantum cryptography移行の目標時点を2029年に置くと公表した。量子ハードウェア、error correction、factoring推定の進展を踏まえ、認証と署名基盤の更新を急ぐべきだという内容だ。
Comments (0)
No comments yet. Be the first to comment!