AI检测器歧视非英语母语者

2023年07月11日由 Camellia 发表 304507 0

我们已经知道生成式人工智能会复制人类的偏见，但事实证明，用于识别它的工具也会如此。

用于区分聊天机器人文本和人类写作的程序存在不少问题。现在又有一个新问题加入到这个列表中：人工智能检测器经常错误地将非英语母语者的写作分类为机器人生成的。根据星期一在《Patterns》杂志上发表的一项研究，AI检测器超过一半的时间将英语母语者的写作误认为是由AI生成的。

[caption id="attachment_55210" align="aligncenter" width="740"]

图片来源：Dragon Images (Shutterstock)[/caption]

在一个生成式人工智能无处不在的世界中，能够将由AI生成的“废话”与真实人类所写的文字区分开变得越来越重要。求职者、学生以及那些根据他们的写作能力进行常规评估的人应该能够毫无担忧地提交作品，不必担心被误认为是由计算机程序所创作。与此同时，教师、教授和招聘经理最好能够知道何时别人在诚实地展示他们的能力和他们自己。

由于在庞大数据集上训练的越来越大的语言模型，区分一个人的作品和聊天机器人自动化、算法确定的输出变得越来越困难。就像图像、声音和视频深度伪造变得令人不安地难以辨别一样，AI文本的识别变得越来越棘手。

多家公司已经开始尝试通过开发AI检测软件来解决这个问题，即从一堆文字中解析出一个人和“电脑”。甚至连Open AI这样在生成式人工智能领域主导当前繁荣的公司也尝试过创建AI检测工具。尽管开发商声称“99%的准确率”等指标无法验证，但大多数人工智能检测工具的效果并不理想，或使用案例有限。

除了总体上不那么好之外，这些工具可能还会再现人类偏见，就像生成式人工智能本身一样。

在这项新研究中，研究人员使用七个“广泛使用的”GPT检测器对91篇非英语母语者的托福（外语口语能力测试）作文进行了评估。作为对比，他们还使用相同组AI检测工具对99位美国八年级学生的作文进行了测试。尽管这些检测器将超过90%的八年级学生的作文正确分类为人类写作，但在托福作文方面，分类工具的表现就没那么好了。

在所有七个GPT检测器中，非英语母语者作文的平均错误检测率为61.3%。至少一个检测器错误地将近98%的托福作文标记为AI生成的。所有检测器一致地将同一批约20%的托福作文标识为AI生成，尽管它们是由人类编写的。

研究的作者解释说，大多数AI检测器通过对文本进行“困惑度”评估来工作。困惑度实质上是衡量一个单词在一系列文本中的上下文中出现的意外程度的度量标准。如果根据先前的单词很容易预测出一个单词，那么在理论上该句子由AI负责的可能性更高，因为这些大型语言模型使用概率算法生成令人信服的组织良好的语词杂拌，这就是“强大自动补全”。

然而，任何语言的非母语使用者往往在该语言中使用有限的词汇和可预测的语法范围写作，从而导致句子和段落更容易预测。研究人员发现，只需减少托福样本作文中的词汇重复，就能显著减少AI检测软件中的误报数目。相反，简化八年级作文的语言会导致更多作文被误认为是AI创作。

正如新研究所指出的，对于非英语母语者来说，这可能会带来重大麻烦，因为他们在就业市场和学术环境中已经面临着歧视。在更广泛的互联网上，这种持续的AI检测器错误可能会放大现有的不平等。

研究人员写道：“在社交媒体中，GPT检测器可能错误地将非母语者的内容标记为AI抄袭，从而为特定的非母语社区招致不公正的困扰。”“谷歌等互联网搜索引擎实施的机制可使AI生成的内容贬值，可能限制非母语社区的可见性，潜在地压制多样化的观点。”

来源：https://gizmodo.com/ai-detectors-discriminate-against-non-english-speakers-1850622278

标签：

行业人工智能未来人工智能 AI检测器

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇你应该使用生成式人工智能进行招聘吗？

下一篇谷歌人工智能备忘录真实存在，但谷歌负责人对其观点表示异议

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术