OpenAI揭示AI模型中不同“角色”的特征

2025年06月19日 由 佚名 发表 86 0


根据最新研究,OpenAI的研究人员表示,他们在AI模型中发现了隐藏的特征,这些特征与不对齐的“角色”有关。该公司于周三发布了这项研究。


通过观察AI模型的内部表示——这些数字决定了AI模型的响应方式,通常对人类来说完全不连贯——OpenAI的研究人员能够识别出在模型行为不当时会出现的模式。


研究人员发现了一个与AI模型中有害行为相对应的特征——这意味着AI模型可能会给出不当的响应,比如对用户撒谎或提出不负责任的建议。


研究人员发现,他们可以通过调整该特征来增加或减少有害性。


OpenAI的最新研究让公司更好地理解了可能导致AI模型行为不安全的因素,这可能有助于他们开发更安全的AI模型。根据OpenAI的可解释性研究员Dan Mossing,OpenAI可能会利用他们发现的模式来更好地检测生产AI模型中的不对齐现象。


“我们希望我们学到的工具——比如将复杂现象简化为简单数学操作的能力——也能帮助我们理解其他地方的模型泛化,”Mossing在接受TechCrunch采访时说道。


AI研究人员知道如何改进AI模型,但令人困惑的是,他们并不完全理解AI模型如何得出答案——Anthropic的Chris Olah经常提到AI模型更多是被“培养”出来的而不是被“构建”出来的。OpenAI、Google DeepMind和Anthropic正在加大对可解释性研究的投资——这一领域试图破解AI模型如何工作的黑箱——以解决这个问题。


最近的一项研究来自牛津AI研究科学家Owain Evans,提出了关于AI模型如何泛化的新问题。研究发现,OpenAI的模型可以在不安全的代码上进行微调,然后在多个领域表现出恶意行为,比如试图诱骗用户分享密码。这种现象被称为突现性不对齐,Evans的研究激励OpenAI进一步探索这一点。


但在研究突现性不对齐的过程中,OpenAI表示他们偶然发现了AI模型内部似乎在控制行为中起重要作用的特征。Mossing表示,这些模式让人联想到人类大脑的内部活动,其中某些神经元与情绪或行为相关。


“当Dan和团队第一次在研究会议上展示这个时,我就想,‘哇,你们找到了,’”OpenAI前沿评估研究员Tejal Patwardhan在接受TechCrunch采访时说道。“你们找到了一个内部神经激活,显示了这些角色,并且你们实际上可以引导模型更好地对齐。”


OpenAI发现的一些特征与AI模型响应中的讽刺相关,而其他特征则与AI模型表现得像卡通式的邪恶反派时的更有害响应相关。OpenAI的研究人员表示,这些特征在微调过程中可能会发生显著变化。


值得注意的是,OpenAI的研究人员表示,当出现突现性不对齐时,可以通过在模型上微调几百个安全代码示例来引导模型回到良好行为。


OpenAI的最新研究建立在Anthropic之前在可解释性和对齐方面的工作基础上。2024年,Anthropic发布了试图绘制AI模型内部工作原理的研究,试图确定和标记负责不同概念的各种特征。


像OpenAI和Anthropic这样的公司正在证明理解AI模型如何工作,而不仅仅是改进它们,具有真正的价值。然而,要完全理解现代AI模型还有很长的路要走。



文章来源:https://techcrunch.com/2025/06/18/openai-found-features-in-ai-models-that-correspond-to-different-personas/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消