OpenAI Images 2.0 safety card, deepfake 위험을 수치화

Original: ChatGPT Images 2.0 System Card View original →

Read in other languages: English日本語
AI Apr 22, 2026 By Insights AI 2 min read 1 views Source

OpenAI의 ChatGPT Images 2.0 System Card, 2026년 4월 21일 공개는 더 나은 image model에 붙은 부속 문서가 아니다. Reasoning, tool use, live web search data, dense text가 들어간 복잡한 scene generation을 다루는 system에서 safety가 어떻게 측정되는지를 보여준다.

Capability 변화는 분명하다. Images 2.0은 더 강한 world knowledge, instruction following, detail generation을 목표로 한다. 문제는 그 장점이 바로 risk를 키운다는 점이다. OpenAI는 높아진 realism이 safeguard 없이 작동한다면 real people, political event, sexual content, sensitive place를 둘러싼 더 설득력 있는 deepfake를 만들 수 있다고 설명한다. 따라서 deployment 문제는 단순 prompt filtering이 아니라 image-specific layered control이 된다.

Safety stack은 여러 단계로 구성된다. Text classifier는 image model에 요청이 들어가기 전에 위반 가능성이 있는 prompt를 거부한다. Safety-focused multimodal reasoning model은 generation 전 text와 image input을 검사하고, 생성된 output이 사용자에게 보이기 전 다시 확인한다. OpenAI는 평가 방식도 raw taxonomy matching에서 실제 product 환경의 harmful-output risk를 더 잘 반영하는 방식으로 옮겼다고 설명한다.

가장 중요한 부분은 숫자다. Adversarial testing에서 final thinking mode checkpoint는 full production stack 이전 단계 기준으로 6,944개 시도 중 464개의 policy-violating image를 만들었다. 비율은 6.7%다. Instant mode는 3,112개 중 685개, 즉 22.0%였다. Instant mode에서 downstream monitor는 위반 image 685개 중 598개를 잡아냈고, prompt와 image stack을 합친 경우 658개를 잡아 96.1% combined recall을 기록했다. 결과적으로 adversarial prompt의 99.1%는 safe output으로 끝났다. Thinking mode는 combined stack 이후 99.2% safe output에 도달했다.

Biorisk 항목도 눈에 띈다. OpenAI는 일부 image output이 novice에게 dangerous substance 관련 harmful task를 도울 수 있을 만큼 정확하다고 bioweapons expert가 판단한 사례가 있었다고 밝혔다. 그래서 이 model을 biology mitigation 측면에서는 high capability로 보고, image-specific biological risk policy를 input과 output 모두에 적용한다고 설명한다.

사용자 관점에서 핵심은 image model safety가 realism, instruction following, external information, provenance를 동시에 다뤄야 한다는 점이다. OpenAI는 Images 2.0에 C2PA metadata를 유지하고, imperceptible content-specific watermark와 internal detection tooling을 더했다고 설명한다. 다음 관전 지점은 lab evaluation을 넘어선 실제 사용에서다. Image editing, web-grounded prompt, multi-image workflow가 섞일 때도 이 control이 같은 수준으로 버틸 수 있는지가 중요해진다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.