人工智能数据自相残杀的黑暗后果

2023年07月19日由 Samoyed 发表 804583 0

最终，生成内容的人工智能模型将开始对自己生成的数据进行训练，从而导致数据自相残杀。

人工智能正在吞噬自己。互联网如今已成为人工智能的垃圾场，在网络上接受训练的模型正在以同类为食。这就是数据自相残杀。

在《纽约客》（The New Yorker）的一篇文章中，著名科幻作家Ted Chiang提醒人们注意人工智能副本在各种数字复印中繁殖副本的危险。他把这种迅速发展的困境比作JPEG效应，每一份复制品的质量都在下降，显示出马赛克般难看的人工痕迹。随着人工智能复制的界限变得模糊，值得思考的一点是，当人工智能生成的内容在互联网上扩散，人工智能模型开始以它们为基础进行训练，而不是主要在人类生成的内容上进行训练时，会发生什么？

来自英国和加拿大的研究人员最近发现，生成式人工智能模型表现出一种被称为“模型崩溃”的现象。当模型从其他模型生成的数据中学习时，这种退化过程就会发生，导致模型逐渐失去对真实数据分布的准确表述。值得注意的是，它被认为是不可避免的，即使是长期在近乎理想的学习条件下。

剑桥大学安全工程教授，“模型崩溃”研究论文的合著者Ross Anderson表示，互联网正面临着被无关紧要的内容淹没的风险，就像海洋里到处都是塑料垃圾一样。这种内容泛滥可能会阻碍通过网络抓取来训练新的人工智能模型，从而使那些已经积累了数据或控制了大规模人机界面的公司受益。

根据媒体研究机构NewsGuard最近的一份报告，一个令人担忧的趋势已经出现：网站上充斥着人工智能生成的劣质内容，以吸引广告商。报告显示，140多个知名品牌在不知情的情况下最终为人工智能编写内容的网站上显示的广告付费。这种不断增长的人工智能生成的劣质内容对负责这些模型的人工智能公司构成了威胁。随着训练数据集越来越多地充斥着人工智能生成的内容，人们开始担心语言模型的效用正在下降。

牛津大学应用与理论机器学习小组的研究员Ilia Shumailov说：“还会给许多其他方面会带来更严重的影响，比如基于性别、种族或其他敏感属性的歧视。”

由于缺乏包容性，目前的模型已经被人工智能伦理学家列入了黑名单。2021年，一组研究人员对语言模型中的白人男性问题提出了警告。该研究的第一作者，UCPH 计算机科学系教授Anders Søgaard解释说，这些模型表现出系统性偏见。令人惊讶的是，它们与40岁以下受教育程度较低的白人男性使用的语言最吻合，而与年轻的非白人男性使用的语言最不吻合。这一发现强调了迫切需要解决和纠正语言模型中的偏见，以确保所有人的公平和包容性。

同样，Shumailov说：“为了防止模型崩溃，我们需要确保原始数据中的少数群体在以后的数据集中得到公平的代表。”

虽然一些公司正在努力开发更具包容性的人工智能，比如Meta最近发布的名为“Casual Conversations v2”开源数据集。这一增强版旨在服务于广泛的使用案例。它为研究人员提供了强大的资源，使他们能够更深入地评估其模型的性能。

但另一方面，自从著名的人工智能伦理学家Timnit Gebru被谷歌解雇后，随后谷歌团队的其他成员也纷纷离职，称谷歌是一家“白人科技组织”。

虽然语言模型有很多缺陷，但它们也有一些优点。例如，Shumailov和他的团队最初将其命名为“模型崩溃”，即痴呆症的效应模型，但在一位同事的反对下决定重新命名。他写道：“我们一直想不出替代的名字，直到我们问了Bard，Bard提供了五个名字，我们选择了《递归的诅咒》。”

目前，语言模型正在成为每家公司战略的一部分。各行各业的公司都在学习如何释放基于GPT-4等语言模型的高级聊天机器人的全部潜力。虽然现在判断还为时过早，但公司正在改变他们在生成式人工智能的混乱中寻找适合自己业务的最佳用例。

来源：https://analyticsindiamag.com/the-dark-consequence-of-ais-data-cannibalism/

标签：

行业人工智能应用人工智能人工智能影响

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇微软在Inspire 2023上宣布Azure AI三重奏

下一篇西班牙反垄断监管机构对亚马逊和苹果处以2.18亿美元罚款

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来