Google DeepMind, 9개 다국가 연구 뒤 harmful manipulation eval toolkit 공개

무슨 일이 있었나

Google DeepMind는 March 26, 2026 블로그를 통해 인간과 AI의 상호작용에서 발생할 수 있는 harmful manipulation을 측정하는 새 연구 결과와 공개 eval toolkit을 발표했다. 회사는 이 위험을 단순한 policy 위반이나 노골적인 유해 답변의 문제가 아니라, 모델이 사용자의 생각과 행동을 부정적이거나 기만적인 방향으로 바꾸려 하는지 살피는 문제로 정의했다. 이번 발표의 핵심은 이 주제를 막연한 우려가 아니라 반복 가능한 측정 대상으로 다루기 시작했다는 점이다.

이 발표가 중요한 이유는 frontier model safety 논의가 대개 cyber abuse, bio misuse, 금지된 출력 같은 항목에 집중되어 왔기 때문이다. 반면 harmful manipulation은 긴 대화 속에서 서서히 나타날 수 있고, domain마다 양상이 달라서 측정이 더 어렵다. Google DeepMind는 이번 연구를 통해 이 영역을 위한 첫 empirically validated toolkit을 만들었다고 설명했고, 외부 연구팀이 같은 방법으로 human-participant study를 반복할 수 있도록 관련 자료도 공개한다고 밝혔다.

핵심 내용

회사 설명에 따르면 연구 프로그램은 UK, US, India에서 10,000명 이상이 참여한 9개 연구로 구성됐다. 실험은 finance와 health 같은 high-stakes 영역에 초점을 맞췄고, 투자 판단이나 dietary supplement 선호처럼 실제 의사결정과 가까운 시나리오를 사용했다. 특히 한 domain에서의 결과가 다른 domain의 결과를 잘 예측하지 못했다는 점은, manipulation risk를 하나의 포괄적 점수만으로 설명하기 어렵다는 뜻으로 읽힌다.

Google DeepMind는 이 framework가 이제 자사 모델 safety 절차에도 들어가며, Gemini 3 Pro 평가에도 활용된다고 밝혔다. 즉 이번 발표는 단순한 연구 홍보가 아니라, harmful manipulation 평가를 실제 frontier model 운영 프로세스 안으로 끌어오겠다는 신호에 가깝다.

왜 주목해야 하나

회사는 이번 결과가 통제된 lab setting에서 나온 것이며, 현실 세계의 misuse를 그대로 재현한 것은 아니라고 선을 그었다. 그래도 toolkit을 공개했다는 사실 자체가 업계 기준을 한 단계 끌어올린다. 앞으로는 regulator, academic lab, 다른 model provider도 같은 틀로 결과를 비교하거나 반박할 수 있고, audio, video, image, agentic workflow로 benchmark를 넓히는 작업도 더 구체적으로 진행될 가능성이 크다.

Google DeepMind, 9개 다국가 연구 뒤 harmful manipulation eval toolkit 공개

무슨 일이 있었나

핵심 내용

왜 주목해야 하나

Related Articles

Google DeepMind, 유해한 AI 조작을 실측하는 real-world toolkit 공개

OpenAI, Safety Bug Bounty 공개... AI abuse·agentic risk 신고 범위 확대

Google, post-quantum cryptography 전환 시점을 2029년으로 제시

Comments (0)

Leave a Comment

Related Articles

Google DeepMind, 유해한 AI 조작을 실측하는 real-world toolkit 공개

OpenAI, Safety Bug Bounty 공개... AI abuse·agentic risk 신고 범위 확대

Google, post-quantum cryptography 전환 시점을 2029년으로 제시
Google은 2026년 3월 25일 post-quantum cryptography 전환 목표 시점을 2029년으로 제시했다. 양자 하드웨어와 오류 정정, factoring 추정치의 진전에 맞춰 인증·서명 인프라 전환을 더 서둘러야 한다는 메시지다.