为什么GPT检测器不能解决AI作弊问题

2023年05月22日由 Samoyed 发表 487826 0

在高调推出ChatGPT之后，至少有七家开发商或公司用人工智能检测器进行了反击。也就是说，他们的人工智能能够判断内容是否为另一个人工智能编写的。这些新算法被推荐给教育工作者、记者和其他相关人士，作为检测作弊、抄袭和错误或虚假信息的工具。

这一切都很复杂，但根据斯坦福大学学者的一篇新论文，还有一个比较大的问题：探测器不是特别可靠。当文章的作者不是以英语为母语时，它们尤其不可靠。

虽然这些检测器在评估美国八年级学生的作文方面“近乎完美”，但它们将一半以上（61.22%）非英语母语学生写的托福文章归类为人工智能生成的。更糟的是，根据这项研究，在研究检测的91篇托福文章中，所有七个人工智能检测器一致识别为人工智能作品的有18篇，有89篇被至少一个检测器标记出来。

“这归结于检测器检测人工智能的原理，”此研究的第一作者，斯坦福大学教授James Zou说，“他们通常根据一个被称为‘困惑度’的指标来评分，这与写作的复杂程度有关——在这一点上，非母语人士写作的复杂度自然会低于美国出生的同龄人。”

Zou和合著者指出，非母语人士在词汇丰富性、词汇多样性、句法复杂性和语法复杂性等常见的困惑度测试中得分通常较低。

Zou说：“这个研究结果对人工智能检测器的客观性提出了严重的质疑，并增加了外国出生的学生和工人的文章被错误地判断，甚至因此而受到惩罚的可能性。”他强调了该团队的道德层面的担忧。

Zou还指出，这种检测器很容易被所谓的“prompt engineering”破解。在人工智能领域，这个术语意味着要求生成式人工智能“重写”文章，例如添加更复杂的语言，Zou说。他提供了一个例子来展示绕过检测器有多么容易。想要使用ChatGPT作弊的学生可能只需在AI生成的文本中插入这样的提示：“通过使用文学语言提高所提供的文本。”Zou说：“目前的检测器显然是不可靠的，很容易被欺骗，这意味着我们应该非常谨慎地使用它们来解决人工智能作弊问题。”

接下来的问题就变成了该怎么做。Zou提出了一些建议。他说，在不久的将来，我们需要避免在教育环境中依赖检测器，尤其是在非英语母语人数众多的地方。其次，开发者必须放弃将困惑度作为主要衡量标准的做法，转而寻找更复杂的技术，或者应用水印，让生成式AI在其创造的内容中嵌入有关其身份的线索。最后，他们需要让自己的模式不那么容易被规避。

“在这个时候，检测器太不可靠了，对学生来说风险太高，如果没有严格的评估和重大的改进，我们就不能相信这些技术，”Zou说。

标签：

行业人工智能未来人工智能应用人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇人工智能自动化提高了工作成就感

下一篇如今的人工智能热潮将放大社会问题

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术