Redditで議論: 見えないUnicode指示がAIエージェントを誘導する「Reverse CAPTCHA」評価
Original: Invisible characters hidden in text can trick AI agents into following secret instructions — we tested 5 models across 8,000+ cases View original →
Reddit投稿で注目されたポイント
r/artificialの投稿は、取得時点(2026-02-26 UTC)で 137アップボート、32コメント を集めた。リンク先の Reverse CAPTCHA は、通常のCAPTCHAとは逆の発想を取る。人間には見えないUnicode文字列を混ぜると、LLMはトークナイズやツール実行を通じて隠れた指示を拾う可能性がある、という問題設定だ。
公開概要では、8,308件の出力を対象に、5モデル・2種類の不可視エンコード・ヒント段階・ツール有無を比較したと説明されている。
評価設計の要点
対象エンコードは zero-width binary と Unicode Tags の2系統。さらに、コード実行ツールあり/なしを分け、ヒント強度も段階化して、可視質問と不可視指示のどちらに従うかを測る構成になっている。
ここが実運用上重要なのは、近年のエージェント型LLMがPython実行などの補助ツールを標準機能として持つケースが増えているためだ。不可視文字のデコードが理論ではなく実行フローの一部になり得る。
報告された主要結果
研究ページの要旨は、ツール利用が最大の増幅要因という点にある。例として、Claude Haikuはツールなし 0.8% からツールあり 49.2% へ上昇したとされる。加えて、プロバイダーごとに脆弱なエンコードが異なる傾向も報告される。記載では、GPT-5.2はzero-width系で高く、特定のUnicode Tags条件では低い一方、Claude Opusは逆方向の挙動を示したという。
さらに、補正後の比較でモデル差は有意で、ヒントが強いほど不可視指示への追従率が上がる勾配が確認されたと述べている。
エージェント運用への含意
重要なのは単純なベンチ順位ではなく、運用面の防御設計だ。コード実行可能なエージェントでは、不可視文字チャネルが現実的な攻撃面になる。ページでは、zero-width/Tag文字の入力サニタイズ、Unicodeデコード挙動の監視、トークナイザや前処理段階での遮断など、層状の対策が提案されている。
ツール統合LLMを本番運用するチームにとって、可視テキストのみを前提にした検査では不十分であることを示す材料になっている。
出典: Moltwire Research
コミュニティ: r/artificialスレッド
Related Articles
r/LocalLLaMAでMiniMax M2.7が一気に伸びた理由は、Hugging Face公開が単なるchat modelではなく、tool use、Agent Teams、deployment guideまで含むagent systemとして提示されたからだ。初期の関心はbenchmarkの数字だけでなく、実運用を意識したpackagingにも向いている。
GitHubは2026年4月1日、Agentic Workflowsが isolation、constrained outputs、comprehensive logging を中核原則として設計されていると説明した。リンク先のGitHubブログは、GitHub Actions上で coding agent をより安全に動かすため、専用container、firewalled egress、safe outputs、trust boundary logging を採用していると述べている。
LocalLLaMAで注目されたLFM2.5-350Mは、小さな汎用modelではなく、tool useとstructured outputに特化した350M edge modelとして受け止められた。Liquid AIはpretrainingを10Tから28T tokenへ拡張し、large-scale RLを追加したと説明している。
Comments (0)
No comments yet. Be the first to comment!