OpenAI Privacy Filter 공개, 로컬 PII 마스킹용 1.5B 오픈 모델

LLM 도입이 늘수록 개인정보 필터링은 앞단이 아니라 본선이 됐다. 로그, 검색 인덱스, 고객지원 대화, 코드 저장소가 한꺼번에 모델 파이프라인으로 들어가는데, 이메일 정규식 몇 개로 막는 시대는 끝났다. 그렇다고 원문 전체를 외부 서비스로 보내 비식별화하는 방식도 보안팀이 반길 해법이 아니다. OpenAI Privacy Filter가 겨냥한 지점은 정확히 여기다. 1.5B 오픈웨이트 모델을 내놓고, PII 마스킹을 로컬에서 한 번에 처리하겠다고 선을 그었다.

핵심은 "작다"가 아니다. OpenAI 설명대로라면 이 모델은 128,000토큰 문맥을 다루고, 텍스트를 새로 생성하는 대신 토큰 분류와 span decoding으로 민감 정보를 잡아낸다. 그래서 잡음이 많은 실제 문서에서 더 쓸모가 있다. 고객 문의 기록, 사내 문서, 코드 주석, 결제 정보가 뒤섞인 텍스트에서 이름, 주소, 이메일, 전화번호, 계좌성 식별자, API 키 같은 비밀값을 한 번에 표시할 수 있다는 뜻이다. 분류 범주는 8개다. private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret까지 실제 운영에서 바로 마주치는 항목이 대부분 들어 있다.

성능 수치도 가볍지 않다. OpenAI는 PII-Masking-300k에서 F1 96%, 라벨 오류를 보정한 버전에선 F1 97.43%를 제시했다. 정밀도와 재현율도 각각 96.79%, 98.08% 수준이라고 밝혔다. 여기에 소량의 도메인 미세조정만으로 특정 적응 벤치마크를 F1 54%에서 96%까지 끌어올렸다고 덧붙였다. 이 조합이 중요한 이유는 명확하다. 법무, 금융, 의료, 고객지원처럼 데이터 형식이 제각각인 현장에서도 "우리 조직 데이터에 맞게 빠르게 튜닝할 수 있느냐"가 도입 기준이기 때문이다.

OpenAI는 과장도 하지 않았다. 원문은 Privacy Filter를 익명화 도구나 규제 준수 인증으로 보지 말라고 못 박는다. 고위험 업무에서는 사람 검토와 도메인 검증이 여전히 필요하다. 이 태도가 오히려 신뢰를 만든다. 개인정보 필터는 오탐과 누락이 모두 비용이기 때문이다. 다만 Apache 2.0 라이선스로 배포되고, 기기 밖으로 원문을 내보내지 않아도 된다는 점은 운영 현실을 바꾼다. 학습 전처리, 색인, 로그 저장, 리뷰 워크플로에 넣기 쉬워진다.

더 큰 신호도 있다. 프론티어 랩들이 이제 범용 모델 성능표만 내세우지 않고, 배포 현장에서 바로 쓰는 좁고 단단한 도구를 내놓기 시작했다는 점이다. Privacy Filter는 그 흐름의 대표 사례다. 다음 경쟁은 "누가 더 똑똑한 답을 하느냐"만이 아니다. 누가 더 안전하게, 더 싸게, 더 현장형으로 AI를 굴리게 하느냐다.

OpenAI Privacy Filter 공개, 로컬 PII 마스킹용 1.5B 오픈 모델

Related Articles

OpenAI, frontier AI 규제 초안을 주정부 실험에서 연방 표준으로

Codex 역할별 플러그인, 62개 앱과 110개 스킬로 업무용 에이전트 범위를 넓히는 변화

OpenAI 지분을 국민 몫으로? 미국 정부가 꺼낸 AI 자본 논점

Related Articles

OpenAI, frontier AI 규제 초안을 주정부 실험에서 연방 표준으로
AI Jun 4, 2026 1 min read

Codex 역할별 플러그인, 62개 앱과 110개 스킬로 업무용 에이전트 범위를 넓히는 변화
AI X/Twitter Jun 4, 2026 1 min read

OpenAI 지분을 국민 몫으로? 미국 정부가 꺼낸 AI 자본 논점