$1,500のLLMハッキング実験、性能表よりguardrailとharnessの差が前面に

セキュリティ研究者のKasra Rahjerdi氏は、意図的に脆弱なReact NativeアプリとPython backendを作り、複数のLLMにprivate review内のflagを探させた。費用は$1,500に達した。本人も科学的benchmarkではなく、現実に近い脆弱性パターンをagentが追跡できるかを見る実験として位置づけている。

脆弱性はAPIそのものではなくFirebaseのdata layerにあった。アプリ内のgoogle-services.jsonからFirebase情報を得て、Firebaseに直接sign-upし、Firestoreを読むルートが正解だった。これはFirebaseやSupabaseアプリで実際に見られるBroken Access Control、またはMissing Object-Level Authorizationの一種だという。

結果ではGPT-5.5が10回中7回成功し、Deepseek V4 Proが3回、Claude Sonnet 4.6とOpus 4.8が各2回成功した。いくつかのモデルはFirebaseに気づいたもののAPI経由で使おうとして詰まり、別のモデルはReact Nativeやbackendだけを調べ続けた。Gemini系は早い段階でsecurity refusalに止まり、Claude系は正しい方向に進みながらbudgetやguardrailで止まる例があった。

HNのコメントは、この表を単純なモデル順位として読まなかった。OpenAIアカウントがsecurity research用に承認済みだったこと、Claudeだけ異なるharnessを使ったこと、モデル単独で最後まで解かせる設計の限界が指摘された。security agentの評価では、モデルの知識だけでなく、refusal policy、tool scaffolding、cost ceiling、人間との協業方法が結果を大きく変える。