OpenAI 发布了开源模型，将个人数据从文本中剥离出来

2026年04月24日由 alex 发表 586 0

Privacy-Filter

OpenAI 发布了隐私过滤器，这是一个开源模型，旨在检测和编辑文本中的个人数据。

据OpenAI介绍，隐私过滤器是为需要清理大量文本再进一步处理的团队设计的，无论是用于训练自己的AI模型还是与第三方共享数据。OpenAI表示，该模型参数相对较小，仅有15亿个参数，每个请求仅使用5000万个活跃参数，并且可以在笔记本电脑上运行，甚至可以直接在浏览器中运行，OpenAI表示。明确支持在本地硬件上运行，且没有任何云连接。

该模型检测八类敏感内容：姓名、地址、电子邮件地址、电话号码、网址、日期、账户号码以及密码或API密钥等其他秘密。与传统聊天机器人不同，它不会生成新文本。相反，它只需一次处理输入，并标记哪些部分属于哪个类别。OpenAI表示，拥有128,000令牌的上下文窗口，使其能够处理长文档而无需拆分。

用户可以调整设置，控制模型是积极地遮蔽（高召回率，更多假阳性）还是保守性（漏报较少，但遗漏项目较多）。拥有自身数据集的团队还可以进一步微调模型。

隐私过滤器可在 GitHub 和 Hugging Face 以 Apache 2.0 许可证发布，商业用途也被允许。

敏感用例的明确限制

OpenAI明确表示，隐私过滤器不提供任何匿名化或合规的法律保证。该模型仅作为更广泛数据保护策略中的一层。OpenAI本身也列出了若干弱点：罕见或区域罕见的名字更容易被遗漏，知名公众人物或组织有时会被错误地遮蔽，非英文文本或非拉丁字母会性能下降。

对于医疗、法律、金融或人力资源等敏感领域，OpenAI明确建议保持人工审核。标签类别也不能在运行时更改，这意味着需要不同策略的团队需要微调模型。

文章来源：https://the-decoder.com/openai-releases-open-source-model-that-strips-personal-data-from-text/

标签：

openai

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Microsoft在Word、Excel和PowerPoint上推出“氛围工作”功能

下一篇 Claude 直接连接到你的个人应用，如 Spotify、Uber Eats 和 TurboTax

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术