Databricks, LogSentinel로 LLM 기반 data classification을 policy enforcement 단계까지 확장
Original: As schemas evolve, keeping sensitive data correctly labeled gets harder. At Databricks, LogSentinel uses LLMs on Databricks to classify columns, apply hierarchical and residency-aware labels, and continuously detect drift, creating tickets for violations. On 2,258 samples, it achieved up to 92% precision and 95% recall for PII and is now informing Data Classification to improve policy enforcement and compliance workflows. See how: databricks.com/blog/logsentin… View original →
Databricks가 X에서 밝힌 내용
2026년 3월 27일, Databricks는 LogSentinel이라는 내부 시스템이 LLM을 사용해 column을 분류하고, hierarchical 및 residency-aware label을 적용하며, schema 변화에 따라 drift를 지속적으로 탐지한다고 설명했다. 위반 사항이 발견되면 ticket를 생성하며, 2,258개 sample에서 PII 기준 최대 92% precision과 95% recall을 달성했다고도 밝혔다.
게시물의 표현도 중요하다. Databricks는 이를 독립적인 공개 제품 출시로 소개하지 않았다. 대신 이 작업이 Data Classification에 반영돼 policy enforcement와 compliance workflow를 개선하고 있다고 말했다. 이는 사내 평가·운영 체계가 Unity Catalog의 제품 기능과 연결되고 있음을 시사한다.
Databricks 문서가 보태는 정보
현재 Databricks 문서는 Unity Catalog Data Classification이 AI agent와 LLM을 사용해 catalog table 안의 sensitive data를 자동으로 classify하고 tag한다고 설명한다. 또한 incremental scan, results system table, 그리고 attribute-based access control(ABAC) 같은 governance control로의 연결도 지원한다고 밝힌다. 즉 이 기능은 단순히 label을 붙이는 데서 멈추지 않고, 그 label이 실제 access policy에 반영되도록 설계돼 있다.
Governed tags 관련 문서는 enforcement layer를 더 분명히 보여준다. Governed tag는 허용 값과 권한 규칙을 갖는 account-level tag이며, Unity Catalog object 전반에 적용될 수 있다. Databricks는 이를 data classification, compliance, operational automation, ABAC에 활용할 수 있다고 설명한다. 동시에 tag data는 plain text로 저장되고 글로벌하게 복제될 수 있으므로, tag 값 자체에 민감한 정보를 넣지 말아야 한다고 경고한다.
왜 중요한가
더 큰 흐름은 enterprise data governance가 정적인 수동 tagging에서, policy execution과 연결된 지속적 classification으로 이동하고 있다는 점이다. Schema drift는 시간이 지날수록 metadata governance를 무너뜨리는 대표적 원인이다. Label이 실제 데이터를 반영하지 못하게 되면 access control과 compliance monitoring도 현실과 어긋난다.
Databricks는 LLM 보조 classification이 이 간극을 줄일 수 있다고 주장하고 있다. 특히 governed tag와 ABAC식 제어가 결합될 때 그 의미가 커진다. X 게시물과 문서를 함께 보면, Databricks는 detection, labeling, drift monitoring, enforcement를 하나의 운영 루프로 묶으려는 방향으로 보인다. 이는 단순한 metadata 관리 AI화보다 한 단계 더 나간 접근이며, catalog 규모의 민감 데이터 거버넌스를 다루는 팀에게 현실적인 문제를 겨냥한다.
출처: Databricks X 게시물 · Databricks Data Classification 문서 · Databricks governed tags 문서
Related Articles
Anthropic은 Mar 11, 2026에 The Anthropic Institute를 출범시키고 frontier AI가 경제, 안보, 법률, 사회 전반에 미칠 영향을 본격적으로 연구하겠다고 밝혔다. builder 내부에서 얻는 관찰을 외부 연구자와 대중에게 더 공개하겠다는 점이 핵심이다.
Anthropic은 Frontier Safety Roadmap을 통해 2026~2027년 안전·보안·정책 목표와 일정 기반 이행 계획을 공개했다. 문서에는 ASL-3 보호조치 유지, 정책 로드맵 제안, 내부 AI 개발 활동 가시성 강화 같은 구체 과제가 포함됐다.
Anthropic는 powerful AI가 사회에 던질 과제를 다루는 공익 조직 The Anthropic Institute를 출범시켰다. 회사는 이 조직이 technical·economic·social science 관점을 결합해 public conversation을 넓히는 역할을 맡는다고 밝혔다.
Comments (0)
No comments yet. Be the first to comment!