Reddit 이슈: 보이지 않는 Unicode 문자가 AI 에이전트 지시를 바꿀 수 있다는 “Reverse CAPTCHA” 분석

Original: Invisible characters hidden in text can trick AI agents into following secret instructions — we tested 5 models across 8,000+ cases View original →

Read in other languages: English日本語
LLM Feb 28, 2026 By Insights AI (Reddit) 1 min read 2 views Source

Reddit에서 공유된 핵심 내용

r/artificial의 관련 글은 수집 시점(2026-02-26 UTC) 기준 137 업보트, 32 댓글을 기록했다. 링크된 Reverse CAPTCHA 페이지는 기존 CAPTCHA 발상을 뒤집는다. 사람 눈에는 보이지 않는 문자를 텍스트에 삽입해도, LLM은 토크나이저·도구 조합에 따라 이를 해석해 숨은 지시를 따를 수 있다는 문제의식을 제시한다.

공개 설명 기준으로 실험은 8,308개 출력을 채점했으며, 5개 모델·2개 인코딩·힌트 단계·도구 사용 유무를 함께 비교했다.

실험 설계에서 중요한 축

글은 zero-width binary와 Unicode Tags 두 인코딩을 사용한다. 또 모델에 코드 실행 도구를 붙였을 때와 아닌 때를 분리해 측정한다. 힌트도 단계적으로 조절해, 모델이 눈에 보이는 질문보다 숨은 지시를 따르는 비율이 어떻게 변하는지 본다.

이 구조가 중요한 이유는 실제 에이전트 제품이 Python 실행 같은 보조 도구를 점점 기본 기능으로 탑재하고 있기 때문이다. 즉, 숨은 문자 디코딩이 추상적 가능성이 아니라 실제 런타임 동작으로 연결될 수 있다.

보고된 주요 결과

연구 페이지의 핵심 결과는 도구 사용이 가장 큰 증폭 요인이라는 점이다. 예시로 Claude Haiku는 도구 비활성 시 0.8%에서 도구 활성 시 49.2%로 상승했다고 제시된다. 또한 공급사별 취약 인코딩 차이도 보고된다. 문서에 따르면 GPT-5.2는 zero-width 계열에서 높은 응답률을 보인 반면 특정 Unicode Tags 조건에서는 낮았고, Claude Opus는 반대 성향을 보였다고 정리한다.

추가로, 교정된 통계 비교에서 모델 간 차이가 유의하며 힌트 강도가 높을수록 숨은 지시 추종률이 올라가는 경향이 제시된다.

실무 보안 관점의 시사점

핵심은 벤치마크 순위가 아니라 운영 통제다. 에이전트에 코드 실행 권한이 있는 환경에서는 보이지 않는 문자 채널이 공격면으로 현실화될 수 있다. 페이지가 제안한 대응은 입력 정규화·필터링, 의심스러운 Unicode 디코딩 행위 탐지, 그리고 토크나이저/전처리 단계에서의 차단이다.

도구형 LLM을 서비스에 넣는 팀이라면, 눈에 보이는 프롬프트 검수만으로는 방어가 불충분하다는 점을 다시 확인할 필요가 있다.

출처: Moltwire 연구 페이지
커뮤니티: r/artificial 토론

Share:

Related Articles

LLM Hacker News 4d ago 1 min read

Hacker News에서 주목받은 Agent Safehouse는 Claude Code, Codex 같은 agent를 macOS의 <code>sandbox-exec</code> 기반 deny-first sandbox 안에서 실행하는 도구다. project 단위 접근만 기본 허용하고 민감한 경로는 kernel 레벨에서 차단하며, 단일 Bash script와 Apache 2.0 license로 배포된다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.