
Anthropic PBC 今天发布了 Claude 宪章的新版本,该文件概述了大型语言模型系列应如何处理提示。
公司于2023年5月发布了该文件的原始版本。该文档包含了防止Claude产生有害或无益输出的指令。Anthropic发现这些指令存在一定限制,因此决定制定一部新宪法。
其中一个主要挑战是Claude难以将人类学的指导方针应用于新情境。如果LLM安全指令未明确说明应如何回答某个提示,模型可能会生成错误的响应。
据Anthropic称,其新章程不仅为Claude模型提供了指令,还解释了“为什么我们希望它们以某些方式表现”。这个解释对大型语言模型来说更容易应用于不熟悉的任务。
更新后的章程围绕四项核心指令展开。第一,Claude 应该“真正有帮助”,通过让输出与用户需求保持一致。举个例子,章程规定LLM系列不应生成开发者请求之外的编程语言代码。
文件的下一部分明确指出,Claude应“大致安全”。根据Anthropic的说法,这意味着模型不应执行用户禁止的行为。Claude还被要求对其决策方式保持透明。
宪法的另外两个核心优先事项是确保Claude“在大体上是道德规范”的,并遵守Anthropic提供的“更具体的指导方针”。其中一些指南明确规定了LLM系列如何抵御越狱尝试。其他用户则为Claude提供如何与第三方应用程序交互的指导。
该架构是Claude训练数据集的一部分。此外,该系列中的大型语言模型还利用该文档生成额外的合成训练文件。Claude生成合成数据的一种方式是模拟章程中指导方针适用的聊天会话。
Anthropic表示,该文件还有其他用途。公司的客户可以利用它来判断及时回复是否符合Claude的章程。如果不合适,他们可以向Anthropic反馈。
公司通过知识共享CC0 1.0契约发布了该章程,允许公众免费使用该章程。Anthropic的主要竞争对手OpenAI集团PBC也为自身的AI宪法采用了相同的许可。该文档涵盖了许多与Claude指南相同的主题,并成为GPT-5训练数据集的一部分。
