Databricks, LogSentinel로 LLM 기반 data classification을 policy enforcement 단계까지 확장

Original: As schemas evolve, keeping sensitive data correctly labeled gets harder. At Databricks, LogSentinel uses LLMs on Databricks to classify columns, apply hierarchical and residency-aware labels, and continuously detect drift, creating tickets for violations. On 2,258 samples, it achieved up to 92% precision and 95% recall for PII and is now informing Data Classification to improve policy enforcement and compliance workflows. See how: databricks.com/blog/logsentin… View original →

Read in other languages: English日本語
AI Mar 28, 2026 By Insights AI 1 min read Source

Databricks가 X에서 밝힌 내용

2026년 3월 27일, Databricks는 LogSentinel이라는 내부 시스템이 LLM을 사용해 column을 분류하고, hierarchical 및 residency-aware label을 적용하며, schema 변화에 따라 drift를 지속적으로 탐지한다고 설명했다. 위반 사항이 발견되면 ticket를 생성하며, 2,258개 sample에서 PII 기준 최대 92% precision95% recall을 달성했다고도 밝혔다.

게시물의 표현도 중요하다. Databricks는 이를 독립적인 공개 제품 출시로 소개하지 않았다. 대신 이 작업이 Data Classification에 반영돼 policy enforcement와 compliance workflow를 개선하고 있다고 말했다. 이는 사내 평가·운영 체계가 Unity Catalog의 제품 기능과 연결되고 있음을 시사한다.

Databricks 문서가 보태는 정보

현재 Databricks 문서는 Unity Catalog Data ClassificationAI agentLLM을 사용해 catalog table 안의 sensitive data를 자동으로 classify하고 tag한다고 설명한다. 또한 incremental scan, results system table, 그리고 attribute-based access control(ABAC) 같은 governance control로의 연결도 지원한다고 밝힌다. 즉 이 기능은 단순히 label을 붙이는 데서 멈추지 않고, 그 label이 실제 access policy에 반영되도록 설계돼 있다.

Governed tags 관련 문서는 enforcement layer를 더 분명히 보여준다. Governed tag는 허용 값과 권한 규칙을 갖는 account-level tag이며, Unity Catalog object 전반에 적용될 수 있다. Databricks는 이를 data classification, compliance, operational automation, ABAC에 활용할 수 있다고 설명한다. 동시에 tag data는 plain text로 저장되고 글로벌하게 복제될 수 있으므로, tag 값 자체에 민감한 정보를 넣지 말아야 한다고 경고한다.

왜 중요한가

더 큰 흐름은 enterprise data governance가 정적인 수동 tagging에서, policy execution과 연결된 지속적 classification으로 이동하고 있다는 점이다. Schema drift는 시간이 지날수록 metadata governance를 무너뜨리는 대표적 원인이다. Label이 실제 데이터를 반영하지 못하게 되면 access control과 compliance monitoring도 현실과 어긋난다.

Databricks는 LLM 보조 classification이 이 간극을 줄일 수 있다고 주장하고 있다. 특히 governed tag와 ABAC식 제어가 결합될 때 그 의미가 커진다. X 게시물과 문서를 함께 보면, Databricks는 detection, labeling, drift monitoring, enforcement를 하나의 운영 루프로 묶으려는 방향으로 보인다. 이는 단순한 metadata 관리 AI화보다 한 단계 더 나간 접근이며, catalog 규모의 민감 데이터 거버넌스를 다루는 팀에게 현실적인 문제를 겨냥한다.

출처: Databricks X 게시물 · Databricks Data Classification 문서 · Databricks governed tags 문서

Share: Long

Related Articles

AI sources.twitter Mar 11, 2026 1 min read

Anthropic는 powerful AI가 사회에 던질 과제를 다루는 공익 조직 The Anthropic Institute를 출범시켰다. 회사는 이 조직이 technical·economic·social science 관점을 결합해 public conversation을 넓히는 역할을 맡는다고 밝혔다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.