OpenAI 发布了开源模型,将个人数据从文本中剥离出来

2026年04月24日 由 alex 发表 586 0

Privacy-Filter


OpenAI 发布了隐私过滤器,这是一个开源模型,旨在检测和编辑文本中的个人数据。


据OpenAI介绍,隐私过滤器是为需要清理大量文本再进一步处理的团队设计的,无论是用于训练自己的AI模型还是与第三方共享数据。OpenAI表示,该模型参数相对较小,仅有15亿个参数,每个请求仅使用5000万个活跃参数,并且可以在笔记本电脑上运行,甚至可以直接在浏览器中运行,OpenAI表示。明确支持在本地硬件上运行,且没有任何云连接。


该模型检测八类敏感内容:姓名、地址、电子邮件地址、电话号码、网址、日期、账户号码以及密码或API密钥等其他秘密。与传统聊天机器人不同,它不会生成新文本。相反,它只需一次处理输入,并标记哪些部分属于哪个类别。OpenAI表示,拥有128,000令牌的上下文窗口,使其能够处理长文档而无需拆分。


用户可以调整设置,控制模型是积极地遮蔽(高召回率,更多假阳性)还是保守性(漏报较少,但遗漏项目较多)。拥有自身数据集的团队还可以进一步微调模型。


隐私过滤器可在 GitHub 和 Hugging Face 以 Apache 2.0 许可证发布,商业用途也被允许。


敏感用例的明确限制

OpenAI明确表示,隐私过滤器不提供任何匿名化或合规的法律保证。该模型仅作为更广泛数据保护策略中的一层。OpenAI本身也列出了若干弱点:罕见或区域罕见的名字更容易被遗漏,知名公众人物或组织有时会被错误地遮蔽,非英文文本或非拉丁字母会性能下降。


对于医疗、法律、金融或人力资源等敏感领域,OpenAI明确建议保持人工审核。标签类别也不能在运行时更改,这意味着需要不同策略的团队需要微调模型。

文章来源:https://the-decoder.com/openai-releases-open-source-model-that-strips-personal-data-from-text/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消