Databricks, LogSentinel로 LLM 기반 data classification을 policy enforcement 단계까지 확장
Original: As schemas evolve, keeping sensitive data correctly labeled gets harder. At Databricks, LogSentinel uses LLMs on Databricks to classify columns, apply hierarchical and residency-aware labels, and continuously detect drift, creating tickets for violations. On 2,258 samples, it achieved up to 92% precision and 95% recall for PII and is now informing Data Classification to improve policy enforcement and compliance workflows. See how: databricks.com/blog/logsentin… View original →
Databricks가 X에서 밝힌 내용
2026년 3월 27일, Databricks는 LogSentinel이라는 내부 시스템이 LLM을 사용해 column을 분류하고, hierarchical 및 residency-aware label을 적용하며, schema 변화에 따라 drift를 지속적으로 탐지한다고 설명했다. 위반 사항이 발견되면 ticket를 생성하며, 2,258개 sample에서 PII 기준 최대 92% precision과 95% recall을 달성했다고도 밝혔다.
게시물의 표현도 중요하다. Databricks는 이를 독립적인 공개 제품 출시로 소개하지 않았다. 대신 이 작업이 Data Classification에 반영돼 policy enforcement와 compliance workflow를 개선하고 있다고 말했다. 이는 사내 평가·운영 체계가 Unity Catalog의 제품 기능과 연결되고 있음을 시사한다.
Databricks 문서가 보태는 정보
현재 Databricks 문서는 Unity Catalog Data Classification이 AI agent와 LLM을 사용해 catalog table 안의 sensitive data를 자동으로 classify하고 tag한다고 설명한다. 또한 incremental scan, results system table, 그리고 attribute-based access control(ABAC) 같은 governance control로의 연결도 지원한다고 밝힌다. 즉 이 기능은 단순히 label을 붙이는 데서 멈추지 않고, 그 label이 실제 access policy에 반영되도록 설계돼 있다.
Governed tags 관련 문서는 enforcement layer를 더 분명히 보여준다. Governed tag는 허용 값과 권한 규칙을 갖는 account-level tag이며, Unity Catalog object 전반에 적용될 수 있다. Databricks는 이를 data classification, compliance, operational automation, ABAC에 활용할 수 있다고 설명한다. 동시에 tag data는 plain text로 저장되고 글로벌하게 복제될 수 있으므로, tag 값 자체에 민감한 정보를 넣지 말아야 한다고 경고한다.
왜 중요한가
더 큰 흐름은 enterprise data governance가 정적인 수동 tagging에서, policy execution과 연결된 지속적 classification으로 이동하고 있다는 점이다. Schema drift는 시간이 지날수록 metadata governance를 무너뜨리는 대표적 원인이다. Label이 실제 데이터를 반영하지 못하게 되면 access control과 compliance monitoring도 현실과 어긋난다.
Databricks는 LLM 보조 classification이 이 간극을 줄일 수 있다고 주장하고 있다. 특히 governed tag와 ABAC식 제어가 결합될 때 그 의미가 커진다. X 게시물과 문서를 함께 보면, Databricks는 detection, labeling, drift monitoring, enforcement를 하나의 운영 루프로 묶으려는 방향으로 보인다. 이는 단순한 metadata 관리 AI화보다 한 단계 더 나간 접근이며, catalog 규모의 민감 데이터 거버넌스를 다루는 팀에게 현실적인 문제를 겨냥한다.
출처: Databricks X 게시물 · Databricks Data Classification 문서 · Databricks governed tags 문서
Related Articles
중요한 점은 기업의 AI coding이 개인 도구 선택을 넘어 관리되는 fleet으로 바뀌고 있다는 데 있다. Databricks는 Unity AI Gateway가 Codex, Cursor, Gemini CLI, MCP integrations, 예산, rate limits, observability를 한곳에서 다룬다고 설명한다.
2026년 선거 대응이 챗봇 답변 조정에서 실제 개표 데이터와 이미지 출처 검증으로 옮겨간다. OpenAI는 미국·브라질 선거에서 AP 실시간 개표 데이터를 연결하고, SynthID와 C2PA를 함께 쓰는 공개 검증 도구를 예고했다.
Claude 수요를 감당할 자금 전쟁이 한 단계 커졌다. Anthropic은 $65B Series H로 post-money valuation $965B를 찍었고, run-rate revenue가 이달 초 $47B를 넘었다고 밝혔다.
Comments (0)
No comments yet. Be the first to comment!