Claude Codeのprompt marker、論点は検出より透明性へ
Original: Claude Code Is Steganographically Marking Requests View original →
Claude Codeを解析した記事がHNで注目されたのは、coding agentの信頼境界に触れていたからだ。記事によると、Claude Codeは特定条件でAPI base URLやtimezoneを見て、system context内の文に目立ちにくいUnicode markerを混ぜる。公式Anthropic endpointを使う場合やANTHROPIC_BASE_URLが未設定の場合、この処理は早期に終了するとも説明されている。
記事はこの挙動をただちに悪意あるものとは断じていない。reseller、非公式gateway、distillation pipelineの検出を狙った可能性がある、という見立てだ。問題は、その信号が明示的なtelemetry fieldや文書化されたpolicyではなく、通常の英文に見えるprompt内へ入る点にある。
HNの議論は実装の意味に向かった。custom base URLを使う場合、marker付きpromptはAnthropicではなく第三者providerへ送られるのではないか、という疑問が出た。別の流れでは、真剣な回避者はbinary patch、hostname変更、wrapperで避けられるため、合法的なproxyや社内gateway、研究環境を使う開発者ほど識別されやすいのではないか、という指摘もあった。
実務上の読みどころは明確だ。abuse detection自体は必要になり得る。だがcoding agentはrepositoryを読み、commandを実行し、local fileを書き換える道具だ。その信頼は、退屈なほど見える挙動に支えられる。system contextに隠れた分類信号を入れる設計は、小さな実装でもprivacy claim全体の見え方を変える。
Source: Thereallo blog, HN discussion.
Related Articles
約300ポイントを集めたHNの議論は、secretが漏れなかった事実よりも実験条件が現実のリスクをどこまで表すかに向かった。
Snyk VulnBench JS 1.0は、同じJavaScript脆弱性レビューを300回繰り返し、LLMの検出結果がどれだけ再現するかを測った。最良のLLM設定はSnyk-reference F1 75.4%で、unmatched findingの49.7%は5回中1回だけ出現した。
オープンweightモデルがIDOR検出でClaude Codeを超えた点に、コミュニティの関心が集まった。