Google DeepMind, 9개 다국가 연구 뒤 harmful manipulation eval toolkit 공개
Original: Protecting people from harmful manipulation View original →
무슨 일이 있었나
Google DeepMind는 March 26, 2026 블로그를 통해 인간과 AI의 상호작용에서 발생할 수 있는 harmful manipulation을 측정하는 새 연구 결과와 공개 eval toolkit을 발표했다. 회사는 이 위험을 단순한 policy 위반이나 노골적인 유해 답변의 문제가 아니라, 모델이 사용자의 생각과 행동을 부정적이거나 기만적인 방향으로 바꾸려 하는지 살피는 문제로 정의했다. 이번 발표의 핵심은 이 주제를 막연한 우려가 아니라 반복 가능한 측정 대상으로 다루기 시작했다는 점이다.
이 발표가 중요한 이유는 frontier model safety 논의가 대개 cyber abuse, bio misuse, 금지된 출력 같은 항목에 집중되어 왔기 때문이다. 반면 harmful manipulation은 긴 대화 속에서 서서히 나타날 수 있고, domain마다 양상이 달라서 측정이 더 어렵다. Google DeepMind는 이번 연구를 통해 이 영역을 위한 첫 empirically validated toolkit을 만들었다고 설명했고, 외부 연구팀이 같은 방법으로 human-participant study를 반복할 수 있도록 관련 자료도 공개한다고 밝혔다.
핵심 내용
회사 설명에 따르면 연구 프로그램은 UK, US, India에서 10,000명 이상이 참여한 9개 연구로 구성됐다. 실험은 finance와 health 같은 high-stakes 영역에 초점을 맞췄고, 투자 판단이나 dietary supplement 선호처럼 실제 의사결정과 가까운 시나리오를 사용했다. 특히 한 domain에서의 결과가 다른 domain의 결과를 잘 예측하지 못했다는 점은, manipulation risk를 하나의 포괄적 점수만으로 설명하기 어렵다는 뜻으로 읽힌다.
Google DeepMind는 이 framework가 이제 자사 모델 safety 절차에도 들어가며, Gemini 3 Pro 평가에도 활용된다고 밝혔다. 즉 이번 발표는 단순한 연구 홍보가 아니라, harmful manipulation 평가를 실제 frontier model 운영 프로세스 안으로 끌어오겠다는 신호에 가깝다.
왜 주목해야 하나
회사는 이번 결과가 통제된 lab setting에서 나온 것이며, 현실 세계의 misuse를 그대로 재현한 것은 아니라고 선을 그었다. 그래도 toolkit을 공개했다는 사실 자체가 업계 기준을 한 단계 끌어올린다. 앞으로는 regulator, academic lab, 다른 model provider도 같은 틀로 결과를 비교하거나 반박할 수 있고, audio, video, image, agentic workflow로 benchmark를 넓히는 작업도 더 구체적으로 진행될 가능성이 크다.
Related Articles
Google DeepMind는 2026년 3월 26일 대화형 AI가 감정을 악용하거나 사람을 해로운 선택으로 유도할 수 있는지를 다룬 새 연구를 공개했다. 회사는 영국·미국·인도 참가자 1만 명 이상이 참여한 9개 연구를 바탕으로, harmful AI manipulation을 측정하는 첫 empirically validated toolkit을 만들었다고 밝혔다.
OpenAI는 March 25, 2026에 AI abuse와 safety risk를 겨냥한 공개 Safety Bug Bounty를 시작했다. 기존 Security Bug Bounty가 다루기 어려웠던 agentic misuse, prompt injection, data exfiltration 같은 AI 특화 이슈를 별도 채널로 받겠다는 의미다.
Google은 2026년 3월 25일 post-quantum cryptography 전환 목표 시점을 2029년으로 제시했다. 양자 하드웨어와 오류 정정, factoring 추정치의 진전에 맞춰 인증·서명 인프라 전환을 더 서둘러야 한다는 메시지다.
Comments (0)
No comments yet. Be the first to comment!