
OpenAI发布gpt-oss-safeguard今天,OpenAI发布了两款开放权重模型(分别为120B和20B参数),旨在根据您在运行时定义的政策对内容安全进行分类。与传统的将政策融入训练的安全分类器不同,这些模型在需要时读取您的规则,并在工作时展示其推理过程。
对于快速发展的平台来说,这种差异尤为重要。当出现新风险时——例如一个游戏论坛需要打击漏洞分享,或一个评论网站发现一波虚假推荐——传统分类器需要完全重新训练。这些模型让您可以在数小时内更新规则并部署更改,而不是数周。OpenAI表示,他们在内部使用这种方法,并在最近的发布中将多达16%的总计算资源用于安全推理。
这些模型与一个新的社区中心一起发布,由ROOST(强大的开放在线安全工具)推出,这是由OpenAI、Google、Discord和Roblox在二月份成立的一个价值2700万美元的非营利组织。ROOST旨在构建共享的安全基础设施——例如开源审核控制台、政策模板和评估数据集——以便较小的平台不必从头开始重新发明一切。
在OpenAI的内部多政策基准测试中,gpt-oss-safeguard-120b尽管体积明显更小(46.3%对43.2%的准确率),但表现优于GPT-5。然而,OpenAI在技术报告中直接指出:在成千上万个标记示例上训练的分类器在复杂分类任务中仍优于这些推理模型。推理方法在缺乏训练数据、需要政策灵活性或处理解释性比速度更重要的细微新兴风险时效果最佳。
内容审核市场一直被像Checkstep和Hive这样的企业供应商或来自微软Azure和亚马逊的大型科技API所主导。大多数依赖于与固定政策相关的成千上万个标记示例上训练的传统分类器。当政策发生变化时,您需要重新训练一切。
OpenAI的方法——在推理时读取政策并使用思维链解释决策——解决了平台在应对不断变化的风险时的一个实际摩擦点。问题在于:思维链推理不保证准确。OpenAI的技术报告警告说,推理可能包含“幻觉内容”,这与实际解释的政策不符,这使得透明性益处变得复杂。
还有计算成本。这些模型比传统分类器更慢且资源密集。OpenAI通过使用快速分类器来分流内容,然后有选择地应用推理模型来处理这一问题。较小的组织需要类似的策略——这些不是现有审核系统的直接替代品。
ROOST的参与表明,这不仅仅是发布代码,而是构建一个平台可以公开共享政策和评估数据的生态系统。模型在Hugging Face上以Apache 2.0许可证提供,OpenAI将于12月8日在旧金山与ROOST和Hugging Face共同举办黑客马拉松。
