Reddit Inc. 已对初创公司 Perplexity AI Inc. 和三家数据抓取服务提供商提起诉讼,指控其拖网搜索该公司的受版权保护的内容以用于训练人工智能模型。
Reddit 将数据抓取公司——SerpApi、Oxylabs 和 AWMProxy——比作“银行抢劫者”,并补充说其中一家公司“显然会不惜一切代价获取它迫切需要的 Reddit 数据,为其'答案引擎'提供动力——也就是说,除了直接与 Reddit 达成协议之外,任何事情都像它的一些竞争对手所做的那样。
一些人工智能已经与 Reddit 达成协议,其中包括 OpenAI,该公司去年签署了虚线协议,使用 Reddit 的大量数据来训练其大型语言模型。虽然没有给出数字,但据报道这笔交易价值 6000 万美元。当时,Reddit 表示,它希望在未来三年内从许可协议中获得约 2 亿美元的收入,谷歌有限责任公司也签署了协议。
该公司后来对 Anthropic PBC 提起诉讼,声称其正在 Reddit 上抓取内容来训练其 Claude 系列人工智能模型。这使得今天在美国纽约南区地方法院提起的这起最新诉讼成为少数正在进行的诉讼之一。
数据抓取公司是一种相当新的现象,在生成式人工智能爆炸式增长后不久就出现了。据《纽约时报》报道,SerpApi 总部位于德克萨斯州,为多家公司提供服务。Oxylabs 在立陶宛经营,AWMProxy 是俄罗斯的。
“人工智能公司陷入了对高质量人类内容的军备竞赛——这种压力助长了工业规模的'数据洗钱'经济,”Reddit 首席法务官本·李 (Ben Lee) 告诉《泰晤士报》。“抓取工具绕过技术保护来窃取数据,然后将其出售给渴望培训材料的客户。”
根据诉讼,Reddit 声称它通过在其平台上发布一个“测试帖子”来为 Perplexity 设置了一个陷阱,该帖子仅对谷歌的搜索引擎可见,并且无法在互联网上的其他任何地方访问。Reddit 表示,几个小时之内,该隐藏帖子的内容就出现在 Perplexity 的搜索结果中。
Perplexity 表示尚未收到诉讼,但告诉媒体,它将“积极争取用户自由和公平地获取公共知识的权利”。它补充说,“我们的方法仍然是原则性和负责任的,因为我们通过准确的人工智能提供事实答案,我们不会容忍针对开放性和公共利益的威胁。