Databricks、LogSentinelでLLMベースのdata classificationをpolicy enforcementまで拡張
Original: As schemas evolve, keeping sensitive data correctly labeled gets harder. At Databricks, LogSentinel uses LLMs on Databricks to classify columns, apply hierarchical and residency-aware labels, and continuously detect drift, creating tickets for violations. On 2,258 samples, it achieved up to 92% precision and 95% recall for PII and is now informing Data Classification to improve policy enforcement and compliance workflows. See how: databricks.com/blog/logsentin… View original →
DatabricksがXで示した内容
2026年3月27日、DatabricksはLogSentinelという内部システムがLLMを使ってcolumnを分類し、hierarchicalかつresidency-awareなlabelを付与し、schemaの変化に応じてdriftを継続検知すると説明した。違反が見つかるとticketを発行し、2,258 sampleに対してPIIで最大92% precision、95% recallを達成したとしている。
投稿の言い回しも重要だ。Databricksはこれを独立した公開製品の新規発売としてではなく、Data Classificationを改善し、policy enforcementやcompliance workflowに役立てている取り組みとして位置づけた。つまり社内の評価・運用システムがUnity Catalogの製品機能へ接続されつつあることを示している。
Databricks文書が補足する内容
現行のDatabricks文書によれば、Unity Catalog Data ClassificationはAI agentとLLMを用いてcatalog内のsensitive dataを自動でclassifyし、tag付けする。文書ではincremental scan、results system table、そしてattribute-based access control(ABAC)のようなgovernance controlへの接続も説明されている。つまり、この機能は単にlabelを付けるだけでなく、そのlabelが実際のpolicyへ反映されることを目指している。
Governed tagsの文書はenforcement layerをより明確にする。Governed tagは許可された値や権限制御を持つaccount-level tagであり、Unity Catalog object全体に適用できる。Databricksはこれをdata classification、compliance、operational automation、ABACに活用できるとしている。一方でtag dataはplain textとして保存され、グローバルに複製されうるため、tag値そのものにsensitive informationを入れてはいけないとも警告している。
なぜ重要か
大きな流れとして、enterprise data governanceは静的で手動のtaggingから、policy executionと結びついた継続的classificationへ移行しつつある。Schema driftはmetadata governanceを時間とともに劣化させる典型的な要因であり、labelが現実を反映しなくなると、access controlやcompliance monitoringも現実からずれていく。
Databricksは、LLM支援のclassificationがこのギャップを埋められると主張している。とくにgoverned tagsとABAC型制御が組み合わさると意味が大きい。X投稿と文書を合わせて読むと、Databricksはdetection、labeling、drift monitoring、enforcementを一つの運用ループとして結びつけようとしているように見える。これは単なるmetadata管理へのAI導入より一段踏み込んだ方向であり、catalog規模でsensitive dataを扱うチームの実問題を狙っている。
出典: Databricks X投稿 · Databricks Data Classification文書 · Databricks governed tags文書
Related Articles
AnthropicはMar 11, 2026、The Anthropic Instituteを立ち上げ、frontier AIが経済、法制度、安全保障、社会へ与える影響を本格的に研究すると発表した。model builderの内部観測を、より公開された研究と対話へつなげる試みだ。
AnthropicはFrontier Safety Roadmapを公開し、Security、Safeguards、Alignment、Policyの各領域で期限付き目標を示した。ASL-3 protectionsの継続と、2027年に向けた監視・政策対応の強化が中核となる。
欧州委員会が2026年3月5日、AI生成コンテンツのmarkingとlabellingに関するCode of Practiceの第2次草案を公表した。Article 50 AI Actの適用を前に、open standards、EU icon、例外範囲、2026年8月2日の適用日程が整理された。
Comments (0)
No comments yet. Be the first to comment!