Redditで議論: 見えないUnicode指示がAIエージェントを誘導する「Reverse CAPTCHA」評価
Original: Invisible characters hidden in text can trick AI agents into following secret instructions — we tested 5 models across 8,000+ cases View original →
Reddit投稿で注目されたポイント
r/artificialの投稿は、取得時点(2026-02-26 UTC)で 137アップボート、32コメント を集めた。リンク先の Reverse CAPTCHA は、通常のCAPTCHAとは逆の発想を取る。人間には見えないUnicode文字列を混ぜると、LLMはトークナイズやツール実行を通じて隠れた指示を拾う可能性がある、という問題設定だ。
公開概要では、8,308件の出力を対象に、5モデル・2種類の不可視エンコード・ヒント段階・ツール有無を比較したと説明されている。
評価設計の要点
対象エンコードは zero-width binary と Unicode Tags の2系統。さらに、コード実行ツールあり/なしを分け、ヒント強度も段階化して、可視質問と不可視指示のどちらに従うかを測る構成になっている。
ここが実運用上重要なのは、近年のエージェント型LLMがPython実行などの補助ツールを標準機能として持つケースが増えているためだ。不可視文字のデコードが理論ではなく実行フローの一部になり得る。
報告された主要結果
研究ページの要旨は、ツール利用が最大の増幅要因という点にある。例として、Claude Haikuはツールなし 0.8% からツールあり 49.2% へ上昇したとされる。加えて、プロバイダーごとに脆弱なエンコードが異なる傾向も報告される。記載では、GPT-5.2はzero-width系で高く、特定のUnicode Tags条件では低い一方、Claude Opusは逆方向の挙動を示したという。
さらに、補正後の比較でモデル差は有意で、ヒントが強いほど不可視指示への追従率が上がる勾配が確認されたと述べている。
エージェント運用への含意
重要なのは単純なベンチ順位ではなく、運用面の防御設計だ。コード実行可能なエージェントでは、不可視文字チャネルが現実的な攻撃面になる。ページでは、zero-width/Tag文字の入力サニタイズ、Unicodeデコード挙動の監視、トークナイザや前処理段階での遮断など、層状の対策が提案されている。
ツール統合LLMを本番運用するチームにとって、可視テキストのみを前提にした検査では不十分であることを示す材料になっている。
出典: Moltwire Research
コミュニティ: r/artificialスレッド
Related Articles
OpenAIは2026年3月5日にGPT-5.4とGPT-5.4 Proを発表した。GPT-5.2比でbenchmark改善、computer use機能の拡張、tool searchによるtoken効率改善を示している。
Hacker Newsで注目を集めたAgent Safehouseは、Claude CodeやCodexなどのagentをmacOSの<code>sandbox-exec</code>ベースのdeny-first sandbox内で動かすtoolだ。project単位の権限を既定にし、敏感なpathはkernel層で遮断しつつ、単一のBash scriptとApache 2.0 licenseで配布される。
Hacker Newsで話題になったSWE-CIは、LLMエージェントが単発の修正だけでなく、CIループの中でリポジトリ品質を長期間保てるかを測るarXiv benchmarkだ。
Comments (0)
No comments yet. Be the first to comment!