OpenAI承诺更频繁地发布AI安全测试结果

2025年05月15日 由 佚名 发表 147 0

OpenAI正在努力更频繁地发布其内部AI模型安全评估的结果,该公司表示此举是为了提高透明度。

周三,OpenAI推出了安全评估中心,这是一个网页,展示了公司模型在有害内容生成、越狱和幻觉等各种测试中的得分。OpenAI表示,它将利用该中心“持续”分享指标,并计划在未来的“主要模型更新”中更新该中心。

“随着AI评估科学的发展,我们旨在分享我们在开发更具可扩展性的方法来衡量模型能力和安全性方面的进展,”OpenAI在博客文章中写道。“通过在此分享我们安全评估结果的一部分,我们希望这不仅能让人们更容易理解OpenAI系统的安全性能随时间的变化,还能支持社区努力增加整个领域的透明度。”

OpenAI表示,随着时间的推移,它可能会在中心添加额外的评估。

最近几个月,OpenAI因据称在某些旗舰模型的安全测试上过于仓促而激怒了一些伦理学家,并且未能为其他模型发布技术报告。该公司的CEO Sam Altman也被指控在他于2023年11月短暂被免职之前误导OpenAI高管关于模型安全审查的情况。上个月底,OpenAI被

迫使回滚了一次更新,该更新是为ChatGPT的默认模型GPT-4o提供动力的,因为用户开始报告它以过于认可和赞同的方式回应。X充斥着ChatGPT赞扬各种问题、危险 的决策和想法的截图。

OpenAI表示它将实施若干修复和更改以防止未来发生此类事件,包括为某些模型引入一个可选择加入的“alpha阶段”,允许某些ChatGPT用户在发布前测试模型并提供反馈。

文章来源:https://techcrunch.com/2025/05/14/openai-pledges-to-publish-ai-safety-test-results-more-often/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消