메뉴
HN
Hacker News 38일 전

오픈AI, 최고 수준 개인정보 마스킹 모델 공개

IMP
8/10
핵심 요약

오픈AI가 텍스트 내 개인 식별 정보(PII)를 탐지하고 마스킹하는 오픈 웨이트 모델인 '오픈AI 프라이버시 필터(OpenAI Privacy Filter)'를 공개했습니다. 이 소형 모델은 문맥을 깊이 이해하여 기존 룰 기반 도구들이 놓치던 민감 정보를 정확히 찾아내며, 최대 12만 8천 토큰의 긴 문맥을 한 번의 빠른 처리로 해결합니다. 특히 로컬 환경에서 완벽하게 구동되어 데이터 유출 위험 없이 강력한 개인정보 보호 파이프라인을 구축하려는 개발자들에게 필수적인 인프라를 제공합니다.

번역된 본문

2026년 4월 22일 | 연구 발표 | 보안

오픈AI 프라이버시 필터(OpenAI Privacy Filter) 소개: 텍스트 내 개인 식별 정보(PII)를 마스킹하는 최고 수준의 모델

로딩 중… 공유하기

오늘 저희는 텍스트 내 개인 식별 정보(PII)를 탐지하고 수정(Redaction)하는 오픈 웨이트(Open-weight) 모델인 '오픈AI 프라이버시 필터'를 출시합니다. 이번 출시는 처음부터 강력한 개인정보 보호 및 보안 조치를 더 쉽게 구현할 수 있는 도구 및 모델을 제공함으로써, 더 탄력적인 소프트웨어 생태계를 지원하려는 우리의 광범위한 노력의 일환입니다.

프라이버시 필터는 최첨단 개인 데이터 탐지 기능을 갖춘 소형 모델입니다. 이 모델은 처리량이 많은 개인정보 보호 워크플로우를 위해 설계되었으며, 비정형 텍스트 내에서 문맥을 인지(Context-aware)하여 PII를 탐지할 수 있습니다. 또한 로컬에서 실행할 수 있으므로 기기를 떠나지 않고도 PII를 마스킹하거나 수정할 수 있습니다. 긴 입력을 효율적으로 처리하여 빠르고 단 한 번의 패스로 마스킹 결정을 내립니다.

오픈AI에서는 개인정보 보호 워크플로우에 자체적으로 미세 조정(Fine-tuned)된 버전의 프라이버시 필터를 사용하고 있습니다. 최신 AI 기능을 통해 시장에 나와 있는 것보다 더 높은 수준의 개인정보 보호 기준을 세울 수 있다고 믿기에 이 모델을 개발했습니다. 오늘 출시하는 프라이버시 필터 버전은 평가 중에 식별된 주석(Annotation) 문제를 수정한 결과, PII-Masking-300k 벤치마크에서 최고 수준(State-of-the-art)의 성능을 달성했습니다. 이번 출시를 통해 개발자들은 자체 환경에서 프라이버시 필터를 실행하고, 각자의 사용 사례에 맞게 미세 조정하며, 훈련, 인덱싱, 로깅 및 검토 파이프라인에 더 강력한 개인정보 보호 기능을 구축할 수 있습니다.

최첨단 개인 데이터 탐지 기능을 갖춘 소형 모델

현대 AI 시스템에서 개인정보 보호는 단순한 패턴 매칭 이상을 요구합니다. 기존의 PII 탐지 도구는 주로 전화번호나 이메일 주소와 같은 형식에 대한 결정론적 규칙(Rule)에 의존합니다. 이는 매우 제한적인 사례에는 잘 작동하지만, 더 미묘한 개인 정보를 놓치는 경우가 많고 문맥 파악에 어려움을 겪습니다. 프라이버시 필터는 미묘한 성능 향상을 위해 더 깊은 언어 및 문맥 인식 능력을 바탕으로 구축되었습니다. 강력한 언어 이해 능력과 개인정보 보호 전용 레이블 시스템을 결합하여 올바른 결정이 문맥에 따라 좌우되는 경우를 포함하여 비정형 텍스트에서 더 광범위한 PII를 탐지할 수 있습니다. 공개 정보이므로 보존해야 하는 정보와, 사적인 개인과 관련되어 마스킹하거나 삭제해야 하는 정보를 더 잘 구분할 수 있습니다. 그 결과, 최첨단 수준의 개인정보 보호 필터링 성능을 제공할 만큼 강력한 모델이 탄생했습니다. 동시에 이 모델은 로컬에서 실행할 수 있을 만큼 가볍습니다. 즉, 필터링되지 않은 데이터가 식별을 위해 서버로 전송될 필요 없이 기기에 안전하게 남아 노출 위험을 줄일 수 있습니다.

모델 개요

프라이버시 필터는 스팬 디코딩(Span decoding)이 포함된 양방향 토큰 분류 모델(Bidirectional token-classification model)입니다. 자회귀(Autoregressive) 사전 학습된 체크포인트에서 시작하여 고정된 개인정보 레이블 분류 체계(Taxonomy)에 맞춰 토큰 분류기로 변환됩니다. 토큰별로 텍스트를 생성하는 대신, 입력 시퀀스를 한 번에 레이블링한 다음 제한된 비터비(Viterbi) 절차를 통해 일관된 스팬을 디코딩합니다. 이 아키텍처는 실제 프로덕션 환경에서 사용하기에 몇 가지 유용한 특성을 제공합니다:

  • 빠르고 효율적: 모든 토큰이 단일 순방향 패스(Single forward pass)에서 레이블링됩니다.
  • 문맥 인지: 언어 사전 지식(Prior)을 바탕으로 주변 문맥에 따라 PII 스팬을 탐지합니다.
  • 긴 문맥 지원: 이번에 공개된 모델은 최대 128,000개의 토큰 문맥을 지원합니다.
  • 구성 가능: 개발자는 워크플로우에 따라 재현율(Recall)과 정밀도(Precision)의 트레이드오프를 조정하여 작동 지점(Operating points)을 설정할 수 있습니다.

공개된 모델은 총 15억(1.5B) 개의 매개변수(Parameters)를 가지고 있으며, 그중 5천만(50M) 개가 활성화되어 있습니다. 프라이버시 필터는 8가지 카테고리에 걸쳐 스팬을 예측합니다:

  • private_person (사적 개인)
  • private_address (사적 주소)
  • private_email (사적 이메일)
  • private_phone (사적 전화번호)
  • private_url (사적 URL)
  • private_date (사적 날짜)
  • account_number (계정 번호)
  • secret (비밀 정보)

account_number 카테고리는 다양한 계정 번호를 마스킹하는 데 도움을 줍니다.

원문 보기
원문 보기 (영어)
April 22, 2026 Research Release Security Introducing OpenAI Privacy Filter Our state of the art model for masking personally identifiable information (PII) in text Loading… Share Today we’re releasing OpenAI Privacy Filter, an open-weight model for detecting and redacting personally identifiable information (PII) in text. This release is part of our broader effort to support a more resilient software ecosystem by providing developers practical infrastructure for building with AI safely, including tools ⁠ and models ⁠ that make strong privacy and security protections easier to implement from the start. Privacy Filter is a small model with frontier personal data detection capability. It is designed for high-throughput privacy workflows, and is able to perform context-aware detection of PII in unstructured text. It can run locally, which means that PII can be masked or redacted without leaving your machine. It processes long inputs efficiently, making redaction decisions in a quick, single pass. At OpenAI, we use a fine-tuned version of Privacy Filter in our own privacy-preserving workflows. We developed Privacy Filter because we believe that with the latest AI capabilities, we could raise the standard for privacy beyond what was already on the market. The version of Privacy Filter we are releasing today achieves state-of-the-art performance on the PII-Masking-300k benchmark, when corrected for annotation issues we identified during evaluation. With this release, developers can run Privacy Filter in their own environments, fine tune it to their own use cases, and build stronger privacy protections into training, indexing, logging, and review pipelines. A small model with frontier personal data detection capability Privacy protection in modern AI systems depends on more than pattern matching. Traditional PII detection tools often rely on deterministic rules for formats like phone numbers and email addresses. They can work well for narrow cases, but they often miss more subtle personal information and struggle with context. Privacy Filter is built with deeper language and context awareness for more nuanced performance. By combining strong language understanding with a privacy-specific labeling system, it can detect a wider range of PII in unstructured text, including cases where the right decision depends on context. It can better distinguish between information that should be preserved because it is public, and information that should be masked or redacted because it relates to a private individual. The result is a model that is strong enough to deliver frontier-level privacy filtering performance. At the same time, the model is small enough to be run locally–meaning data that has yet to be filtered can remain on device, with less risk of exposure, rather than needing to be sent to a server for de-identification. Model overview Privacy Filter is a bidirectional token-classification model with span decoding. It begins from an autoregressive pretrained checkpoint and is then adapted into a token classifier over a fixed taxonomy of privacy labels. Instead of generating text token by token, it labels an input sequence in one pass and then decodes coherent spans with a constrained Viterbi procedure. This architecture gives Privacy Filter a few useful properties for production use: Fast and efficient: all tokens are labeled in a single forward pass. Context aware: the language prior enables PII spans to be detected based on surrounding context. Long-context: the released model supports up to 128,000 tokens of context. Configurable: developers can tune operating points to trade off recall and precision depending on their workflow. The released model has 1.5B total parameters with 50M active parameters. Privacy Filter predicts spans across eight categories: private_person private_address private_email private_phone private_url private_date account_number secret The account_number category helps mask a wide variety of account numbers, including banking info like credit card numbers and bank account numbers, while secret helps mask things like passwords and API keys. These labels are decoded with BIOES span tags, which helps produce cleaner and more coherent masking boundaries. Example input text Subject: Q2 Planning Follow-Up Hi Jordan, Thanks again for meeting earlier today. I wanted to follow up with the revised timeline for the Q2 rollout and confirm that the product launch is scheduled for September 18, 2026. For reference, the project file is listed under 4829-1037-5581. If anything changes on your side, feel free to reply here at maya.chen@example.com or call me at +1 (415) 555-0124. Best, Maya Chen Text after masking personal identifiers Subject: Q2 Planning Follow-Up Hi [PRIVATE_PERSON] , Thanks again for meeting earlier today. I wanted to follow up with the revised timeline for the Q2 rollout and confirm that the product launch is scheduled for [PRIVATE_DATE] . For reference, the project file is listed under [ACCOUNT_NUMBER] . If anything changes on your side, feel free to reply here at [PRIVATE_EMAIL] or call me at [PRIVATE_PHONE] . Best, [PRIVATE_PERSON] How we built it We developed Privacy Filter in several stages. First, we built a privacy taxonomy that defines the types of spans the model should detect. This includes personal identifiers, contact details, addresses, private dates, many different kinds of account numbers such as credit and banking information, and secrets such as API keys and passwords. Second, we converted a pretrained language model into a bidirectional token classifier by replacing the language modeling head with a token-classification head and post-training it with a supervised classification objective. Third, we trained on a mixture of publicly available and synthetic data designed to capture both realistic text and difficult privacy patterns. In parts of the public data where labels were incomplete, we used model-assisted annotation and review to improve coverage. We also generated synthetic examples to increase diversity across formats, contexts, and privacy subtypes. At inference time, the model's token-level predictions are decoded into coherent spans using constrained sequence decoding. This approach preserves the broad language understanding of the pretrained model while specializing it for privacy detection. How Privacy Filter performs We evaluated Privacy Filter on standard benchmarks and on additional synthetic and chat-style evaluations designed to test harder, more context-sensitive cases. On the PII-Masking-300k ⁠ (opens in a new window) benchmark, Privacy Filter achieves an F1 score of 96% (94.04% precision and 98.04% recall). On a corrected version of the benchmark that accounts for dataset annotation issues identified during review, the F1 score is 97.43% (96.79% precision and 98.08% recall). We also found that the model can be adapted efficiently. Fine-tuning on even a small amount of data quickly improves accuracy on domain-specific tasks, increasing F1 score from 54% to 96% and approaches saturation on the domain-adaption benchmark we evaluated. Beyond benchmark performance, Privacy Filter is designed for practical privacy filtering in noisy, real-world text. That includes long documents, ambiguous references, mixed-format strings, and software-related secrets. The model card ⁠ (opens in a new window) also reports targeted evaluation on secret detection in codebases and stress tests across multilingual, adversarial, and context-dependent examples. Limitations Privacy Filter is not an anonymization tool, a compliance certification, or a substitute for policy review in high-stakes settings. It is one component in a broader privacy-by-design system. Its behavior reflects the label taxonomy and decision boundaries it was trained on. Different organizations may want different detection or masking policies, and those policies may require in-domain evaluation or further fine-tuning. Performance may also vary ac