Reddit阻止互联网档案馆以防止AI爬虫访问其内容

2025年08月13日 由 佚名 发表 25 0


Reddit公司今天宣布已决定阻止互联网档案馆对其热门网络论坛进行索引,以防止一些人工智能公司为训练目的抓取其内容。


据报道,Reddit发现AI公司通过互联网档案馆的平台抓取其内容,此前它已限制这些公司通过其官方网站进行抓取。此决定意味着该组织的热门时光机服务将不再能够存档Reddit页面、帖子、个人资料或评论——除了主页上显示的内容。


《The Verge》的一份报告指出,今后,档案馆只能显示任何特定日期的热门帖子和新闻标题。此前,时光机能够存档每一个页面,记录Reddit自称为“互联网首页”上发布的所有内容。


Reddit没有说明哪些AI公司使用时光机绕过其对内容抓取的禁令。公司的一位发言人告诉The Verge,他们“意识到AI公司违反平台政策的情况……并从时光机抓取数据。”


公司似乎认为互联网档案馆应该采取措施防止这种抓取,因此希望这一决定不会是永久性的。然而,报告还强调了Reddit的一个担忧,即时光机有存档用户后来删除的帖子和评论的倾向,称这对用户隐私是个问题。


“在他们能够保护自己的网站并遵守平台政策之前,我们将限制他们对Reddit数据的某些访问,以保护Reddit用户,”公司表示。


尽管Reddit提出了用户隐私问题,但其阻止爬虫的主要动机可能是经济利益。AI公司明确被禁止抓取其网站,除非他们愿意付费访问这些数据。几家公司已经接受了Reddit的这一提议,尤其是Google LLC和OpenAI。


Reddit从未透露与OpenAI的协议价值多少,但与Google的协议据称价值约6000万美元。Reddit此前还表示,希望在未来三年通过此类许可协议产生多达2亿美元的收入。


一家似乎不愿意支付的公司是Anthropic PBC。6月,Reddit对其提起诉讼,称其在声称不再抓取后仍继续抓取其内容。


互联网档案馆并不是第一个因抓取问题被Reddit阻止的组织。2024年6月,这家社交媒体公司表示已阻止微软公司的Bing和较小的搜索引擎,如DuckDuckGo、Mojeek和Qwant,以防止其内容通过这些搜索引擎的档案被抓取。


目前尚不清楚互联网档案馆是否会采取措施防止其档案被抓取,以便解除Reddit的限制。时光机主任Mark Graham在一份声明中表示,他的团队正在就此事进行“持续讨论”。


文章来源:https://siliconangle.com/2025/08/11/reddit-says-blocking-internet-archive-stop-sneaky-ai-scrapers-accessing-content/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消