$1,500のLLMハッキング実験、性能表よりguardrailとharnessの差が前面に
Original: I built a vulnerable app and spent $1,500 seeing if LLMs could hack it View original →
セキュリティ研究者のKasra Rahjerdi氏は、意図的に脆弱なReact NativeアプリとPython backendを作り、複数のLLMにprivate review内のflagを探させた。費用は$1,500に達した。本人も科学的benchmarkではなく、現実に近い脆弱性パターンをagentが追跡できるかを見る実験として位置づけている。
脆弱性はAPIそのものではなくFirebaseのdata layerにあった。アプリ内のgoogle-services.jsonからFirebase情報を得て、Firebaseに直接sign-upし、Firestoreを読むルートが正解だった。これはFirebaseやSupabaseアプリで実際に見られるBroken Access Control、またはMissing Object-Level Authorizationの一種だという。
結果ではGPT-5.5が10回中7回成功し、Deepseek V4 Proが3回、Claude Sonnet 4.6とOpus 4.8が各2回成功した。いくつかのモデルはFirebaseに気づいたもののAPI経由で使おうとして詰まり、別のモデルはReact Nativeやbackendだけを調べ続けた。Gemini系は早い段階でsecurity refusalに止まり、Claude系は正しい方向に進みながらbudgetやguardrailで止まる例があった。
HNのコメントは、この表を単純なモデル順位として読まなかった。OpenAIアカウントがsecurity research用に承認済みだったこと、Claudeだけ異なるharnessを使ったこと、モデル単独で最後まで解かせる設計の限界が指摘された。security agentの評価では、モデルの知識だけでなく、refusal policy、tool scaffolding、cost ceiling、人間との協業方法が結果を大きく変える。
Related Articles
AIスタートアップのShiftが、ニューヨーク住民に無料の家事清掃サービスを提供する代わりに、カメラ付き特殊帽子「マジックハット」を装着した清掃員の作業映像を収集し、家庭用ロボットの訓練データとして活用する計画だ。
Nous ResearchのHermes Agent v0.15.0は、オープンソースのエージェント基盤が大規模化していることを数字で示した。Tekniumは321人の貢献者、747件のPR、50%高速なロード、750倍高速なセッション検索を挙げた。
Claudeの争点はモデル性能だけではなくなった。AnthropicはSeries Hで$65Bを調達し、post-money valuationは$965B、run-rate revenueは5月上旬に$47Bを超えたと明かした。