
OpenAI 发布了隐私过滤器,这是一个开源模型,旨在检测和编辑文本中的个人数据。
据OpenAI介绍,隐私过滤器是为需要清理大量文本再进一步处理的团队设计的,无论是用于训练自己的AI模型还是与第三方共享数据。OpenAI表示,该模型参数相对较小,仅有15亿个参数,每个请求仅使用5000万个活跃参数,并且可以在笔记本电脑上运行,甚至可以直接在浏览器中运行,OpenAI表示。明确支持在本地硬件上运行,且没有任何云连接。
该模型检测八类敏感内容:姓名、地址、电子邮件地址、电话号码、网址、日期、账户号码以及密码或API密钥等其他秘密。与传统聊天机器人不同,它不会生成新文本。相反,它只需一次处理输入,并标记哪些部分属于哪个类别。OpenAI表示,拥有128,000令牌的上下文窗口,使其能够处理长文档而无需拆分。
用户可以调整设置,控制模型是积极地遮蔽(高召回率,更多假阳性)还是保守性(漏报较少,但遗漏项目较多)。拥有自身数据集的团队还可以进一步微调模型。
隐私过滤器可在 GitHub 和 Hugging Face 以 Apache 2.0 许可证发布,商业用途也被允许。
敏感用例的明确限制
OpenAI明确表示,隐私过滤器不提供任何匿名化或合规的法律保证。该模型仅作为更广泛数据保护策略中的一层。OpenAI本身也列出了若干弱点:罕见或区域罕见的名字更容易被遗漏,知名公众人物或组织有时会被错误地遮蔽,非英文文本或非拉丁字母会性能下降。
对于医疗、法律、金融或人力资源等敏感领域,OpenAI明确建议保持人工审核。标签类别也不能在运行时更改,这意味着需要不同策略的团队需要微调模型。
