Databricks、LogSentinelでLLMベースのdata classificationをpolicy enforcementまで拡張
Original: As schemas evolve, keeping sensitive data correctly labeled gets harder. At Databricks, LogSentinel uses LLMs on Databricks to classify columns, apply hierarchical and residency-aware labels, and continuously detect drift, creating tickets for violations. On 2,258 samples, it achieved up to 92% precision and 95% recall for PII and is now informing Data Classification to improve policy enforcement and compliance workflows. See how: databricks.com/blog/logsentin… View original →
DatabricksがXで示した内容
2026年3月27日、DatabricksはLogSentinelという内部システムがLLMを使ってcolumnを分類し、hierarchicalかつresidency-awareなlabelを付与し、schemaの変化に応じてdriftを継続検知すると説明した。違反が見つかるとticketを発行し、2,258 sampleに対してPIIで最大92% precision、95% recallを達成したとしている。
投稿の言い回しも重要だ。Databricksはこれを独立した公開製品の新規発売としてではなく、Data Classificationを改善し、policy enforcementやcompliance workflowに役立てている取り組みとして位置づけた。つまり社内の評価・運用システムがUnity Catalogの製品機能へ接続されつつあることを示している。
Databricks文書が補足する内容
現行のDatabricks文書によれば、Unity Catalog Data ClassificationはAI agentとLLMを用いてcatalog内のsensitive dataを自動でclassifyし、tag付けする。文書ではincremental scan、results system table、そしてattribute-based access control(ABAC)のようなgovernance controlへの接続も説明されている。つまり、この機能は単にlabelを付けるだけでなく、そのlabelが実際のpolicyへ反映されることを目指している。
Governed tagsの文書はenforcement layerをより明確にする。Governed tagは許可された値や権限制御を持つaccount-level tagであり、Unity Catalog object全体に適用できる。Databricksはこれをdata classification、compliance、operational automation、ABACに活用できるとしている。一方でtag dataはplain textとして保存され、グローバルに複製されうるため、tag値そのものにsensitive informationを入れてはいけないとも警告している。
なぜ重要か
大きな流れとして、enterprise data governanceは静的で手動のtaggingから、policy executionと結びついた継続的classificationへ移行しつつある。Schema driftはmetadata governanceを時間とともに劣化させる典型的な要因であり、labelが現実を反映しなくなると、access controlやcompliance monitoringも現実からずれていく。
Databricksは、LLM支援のclassificationがこのギャップを埋められると主張している。とくにgoverned tagsとABAC型制御が組み合わさると意味が大きい。X投稿と文書を合わせて読むと、Databricksはdetection、labeling、drift monitoring、enforcementを一つの運用ループとして結びつけようとしているように見える。これは単なるmetadata管理へのAI導入より一段踏み込んだ方向であり、catalog規模でsensitive dataを扱うチームの実問題を狙っている。
出典: Databricks X投稿 · Databricks Data Classification文書 · Databricks governed tags文書
Related Articles
重要なのは、企業のAI codingが個人単位のtool選択から、統制されたfleet運用へ移りつつある点だ。DatabricksはUnity AI GatewayでCodex、Cursor、Gemini CLI、MCP integrations、budgets、rate limits、observabilityをまとめるとしている。
xAIはGrokをチャットからアプリ制作と自動化の道具へ広げた。Plan Mode、Imagine、CLIを組み合わせたベータ投稿は5,300万回超の表示を集めた。
AIスタートアップのShiftが、ニューヨーク住民に無料の家事清掃サービスを提供する代わりに、カメラ付き特殊帽子「マジックハット」を装着した清掃員の作業映像を収集し、家庭用ロボットの訓練データとして活用する計画だ。
Comments (0)
No comments yet. Be the first to comment!