OpenAI Privacy Filter、128K文脈でローカルPIIマスキング補正F1 97.43%

Original: Introducing OpenAI Privacy Filter View original →

Read in other languages: 한국어English
AI Apr 23, 2026 By Insights AI 1 min read Source

プライバシー対策がいちばん危うくなるのは、モデル推論そのものより前段だ。ログ、チャット履歴、チケット、レビュー用テキストはAIの処理に入る前に整形しなければならないが、その時点で生データを外部のマスキングサービスへ送ること自体が新しいリスクになる。OpenAIが4月22日に公開したPrivacy Filterの意味は、その前処理をもう一度ローカル環境へ引き戻した点にある。未加工テキストを外へ出さず、端末内で個人情報の区間を伏せてから学習、索引化、ログ保管、レビューに回せる。

このモデルは、会話モデルに赤入れ機能を足したものではない。OpenAIの説明では、bidirectional token-classificationにspan decodingを組み合わせた一括ラベリング型で、トークンを順番に生成せず一回のパスで判定する。公開モデルは総パラメータ1.5B、アクティブパラメータ50M、コンテキスト長128,000トークン。対象はprivate_person、private_address、private_email、private_phone、private_url、private_date、account_number、secretの8分類で、secretにはパスワードやAPI keyも含まれる。ソフトウェア開発では電話番号より資格情報流出のほうが先に事故になることも多く、ここは実務に直結する。

評価指標も強い。OpenAIはPII-Masking-300kでF1 96%、precision 94.04%、recall 98.04%を提示した。さらに、レビュー中に見つけたアノテーション不備を補正した版ではF1 97.43%、precision 96.79%、recall 98.08%に上がるという。少量のドメイン固有fine-tuningで、ある評価のF1が54%から96%まで伸びたとも説明している。つまり、素のままでも有力だが、金融、医療、法務のような現場では最終形ではなく土台として使う想定が透けて見える。

もちろん万能ではない。OpenAI自身もPrivacy Filterを匿名化保証やコンプライアンス認証の代替とは位置づけていない。高感度領域では人手レビューとドメイン評価がまだ要る。それでも、Apache 2.0ライセンス、ローカル実行、文脈依存の検出精度がそろったことで、これは研究デモではなく配備できる部品になった。現場でも数字が再現されるなら、これからのAIパイプラインでは「学習や検索の前にまず隠す層」が標準装備になりそうだ。

Share: Long

Related Articles

AI sources.twitter Apr 11, 2026 1 min read

OpenAIは2026年4月10日、Axios package compromise が自社の macOS app-signing GitHub Actions workflow に影響したと説明した。ユーザーデータやシステム、配布ソフトウェアの侵害証拠はないとしつつ、macOS 利用者には 2026年5月8日までに新しい certificate で署名された build への更新を求めている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.