虚假新闻自动检测器的缺陷

2019年10月18日由 TGS 发表 64452 0

21世纪网络上充斥着大量的虚假信息，这是大数据时代不可避免的顽疾，娱乐信息自不必提，据欧洲研究委员会的公开研究资料显示，在2016年美国总统大选期间，有四分之一的美国人至少浏览过一篇假新闻。之后，因为自动文本生成器的横空出世，虚假新闻的问题更是加剧到了极为严重的地步，于是就有研究人员开发了一种自动检测器，可以识别这种机器生成的文本。然而，麻省理工学院计算机科学和人工智能实验室(CSAIL)的一个团队却发现，这种方法并不完善。

为了证明自己的观点，该团队的研究人员开发了可以欺骗最先进假新闻探测器的攻击系统，这个系统主要靠模仿人写文章，借以欺骗探测器。除了不够灵活外，检测器本身还有一个重大缺陷：

在绝大多数时候，检测器会认为机器生成的文本都是假的，因此它可能会错误地将正确合法的自动生成文本判定为假新闻。

为此，麻省理工团队的研究员提出了一个策略，希望能够帮助探测器弥补缺陷。该团队创建了一个数据集，通过消除固有偏见，改变机器思维模式纠正了探测器的一些错误，随后他们又开发了一种新的算法，降低短语在相应类别中特别常见的情况的重要性，与此同时提高短语在该类别中很少见的情况的重要性。简单来说，就是通过更改短语的权重，让其跳出固有的思维模式，进而从根本上，针对克制根据普遍性常理来生成文章的自动文本生成器。

利用这种方式，可以很有效的克制当前的文本生成器，但是也仅仅只是克制当前的生成器而已。因为只要有心人更改文本自动生成器的算法序列，就可以反过来克制探测器，这是近乎无解的循环。

对此，该团队提出了一个策略——通过将真假核查与现有防御相结合，使模型对攻击更加敏感。与此同时，通过开发新的算法和构建涵盖更多类型错误信息的数据集，来进一步改进现有模型。

抱着从根本源头上解决问题的决心，麻省理工研究小组将于十月在香港举行的“自然语言处理的经验方法”会议上，提交一份以去偏存正为基础的研究报告，公开他们的研究成果。

标签：

行业 MIT麻省理工学院自动检测

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌为最先进的人工智能视频理解模型开发了进化技术

下一篇神经形态AI，未来人工智能的下一步

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术