Reddit 이슈: 보이지 않는 Unicode 문자가 AI 에이전트 지시를 바꿀 수 있다는 “Reverse CAPTCHA” 분석
Original: Invisible characters hidden in text can trick AI agents into following secret instructions — we tested 5 models across 8,000+ cases View original →
Reddit에서 공유된 핵심 내용
r/artificial의 관련 글은 수집 시점(2026-02-26 UTC) 기준 137 업보트, 32 댓글을 기록했다. 링크된 Reverse CAPTCHA 페이지는 기존 CAPTCHA 발상을 뒤집는다. 사람 눈에는 보이지 않는 문자를 텍스트에 삽입해도, LLM은 토크나이저·도구 조합에 따라 이를 해석해 숨은 지시를 따를 수 있다는 문제의식을 제시한다.
공개 설명 기준으로 실험은 8,308개 출력을 채점했으며, 5개 모델·2개 인코딩·힌트 단계·도구 사용 유무를 함께 비교했다.
실험 설계에서 중요한 축
글은 zero-width binary와 Unicode Tags 두 인코딩을 사용한다. 또 모델에 코드 실행 도구를 붙였을 때와 아닌 때를 분리해 측정한다. 힌트도 단계적으로 조절해, 모델이 눈에 보이는 질문보다 숨은 지시를 따르는 비율이 어떻게 변하는지 본다.
이 구조가 중요한 이유는 실제 에이전트 제품이 Python 실행 같은 보조 도구를 점점 기본 기능으로 탑재하고 있기 때문이다. 즉, 숨은 문자 디코딩이 추상적 가능성이 아니라 실제 런타임 동작으로 연결될 수 있다.
보고된 주요 결과
연구 페이지의 핵심 결과는 도구 사용이 가장 큰 증폭 요인이라는 점이다. 예시로 Claude Haiku는 도구 비활성 시 0.8%에서 도구 활성 시 49.2%로 상승했다고 제시된다. 또한 공급사별 취약 인코딩 차이도 보고된다. 문서에 따르면 GPT-5.2는 zero-width 계열에서 높은 응답률을 보인 반면 특정 Unicode Tags 조건에서는 낮았고, Claude Opus는 반대 성향을 보였다고 정리한다.
추가로, 교정된 통계 비교에서 모델 간 차이가 유의하며 힌트 강도가 높을수록 숨은 지시 추종률이 올라가는 경향이 제시된다.
실무 보안 관점의 시사점
핵심은 벤치마크 순위가 아니라 운영 통제다. 에이전트에 코드 실행 권한이 있는 환경에서는 보이지 않는 문자 채널이 공격면으로 현실화될 수 있다. 페이지가 제안한 대응은 입력 정규화·필터링, 의심스러운 Unicode 디코딩 행위 탐지, 그리고 토크나이저/전처리 단계에서의 차단이다.
도구형 LLM을 서비스에 넣는 팀이라면, 눈에 보이는 프롬프트 검수만으로는 방어가 불충분하다는 점을 다시 확인할 필요가 있다.
출처: Moltwire 연구 페이지
커뮤니티: r/artificial 토론
Related Articles
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.
댓글의 관심은 “encoder-free”라는 표현이 실제 아키텍처에서 무엇을 뜻하는지에 모였다.
LocalLLaMA의 관심은 “또 하나의 coding model”보다, Cohere 직원이 release 전 weights를 직접 커뮤니티에 맡긴 방식에 쏠렸다.