Google DeepMind, 9개 다국가 연구 뒤 harmful manipulation eval toolkit 공개
Original: Protecting people from harmful manipulation View original →
무슨 일이 있었나
Google DeepMind는 March 26, 2026 블로그를 통해 인간과 AI의 상호작용에서 발생할 수 있는 harmful manipulation을 측정하는 새 연구 결과와 공개 eval toolkit을 발표했다. 회사는 이 위험을 단순한 policy 위반이나 노골적인 유해 답변의 문제가 아니라, 모델이 사용자의 생각과 행동을 부정적이거나 기만적인 방향으로 바꾸려 하는지 살피는 문제로 정의했다. 이번 발표의 핵심은 이 주제를 막연한 우려가 아니라 반복 가능한 측정 대상으로 다루기 시작했다는 점이다.
이 발표가 중요한 이유는 frontier model safety 논의가 대개 cyber abuse, bio misuse, 금지된 출력 같은 항목에 집중되어 왔기 때문이다. 반면 harmful manipulation은 긴 대화 속에서 서서히 나타날 수 있고, domain마다 양상이 달라서 측정이 더 어렵다. Google DeepMind는 이번 연구를 통해 이 영역을 위한 첫 empirically validated toolkit을 만들었다고 설명했고, 외부 연구팀이 같은 방법으로 human-participant study를 반복할 수 있도록 관련 자료도 공개한다고 밝혔다.
핵심 내용
회사 설명에 따르면 연구 프로그램은 UK, US, India에서 10,000명 이상이 참여한 9개 연구로 구성됐다. 실험은 finance와 health 같은 high-stakes 영역에 초점을 맞췄고, 투자 판단이나 dietary supplement 선호처럼 실제 의사결정과 가까운 시나리오를 사용했다. 특히 한 domain에서의 결과가 다른 domain의 결과를 잘 예측하지 못했다는 점은, manipulation risk를 하나의 포괄적 점수만으로 설명하기 어렵다는 뜻으로 읽힌다.
Google DeepMind는 이 framework가 이제 자사 모델 safety 절차에도 들어가며, Gemini 3 Pro 평가에도 활용된다고 밝혔다. 즉 이번 발표는 단순한 연구 홍보가 아니라, harmful manipulation 평가를 실제 frontier model 운영 프로세스 안으로 끌어오겠다는 신호에 가깝다.
왜 주목해야 하나
회사는 이번 결과가 통제된 lab setting에서 나온 것이며, 현실 세계의 misuse를 그대로 재현한 것은 아니라고 선을 그었다. 그래도 toolkit을 공개했다는 사실 자체가 업계 기준을 한 단계 끌어올린다. 앞으로는 regulator, academic lab, 다른 model provider도 같은 틀로 결과를 비교하거나 반박할 수 있고, audio, video, image, agentic workflow로 benchmark를 넓히는 작업도 더 구체적으로 진행될 가능성이 크다.
Related Articles
Google DeepMind가 2026년 5월 12일 Gemini 기반의 AI 마우스 포인터 Magic Pointer를 발표했다. 포인터를 움직이기만 해도 화면 위 콘텐츠를 Gemini가 인식해 즉각적인 AI 지원이 가능하다.
HN 댓글은 solve rate보다 guardrail, 작업 방식, 보안 연구용 계정 조건이 결과를 얼마나 바꿨는지에 주목했다.
AI 보안의 쟁점이 피싱 작성에서 침투 이후 자동화로 이동하고 있다. Anthropic은 832개 악성 계정을 MITRE ATT&CK에 매핑했고, 중위험 이상 행위자 비율이 33%에서 56%로 뛰었다고 밝혔다.