Reddit阻止互联网档案馆以防止AI爬虫访问其内容

2025年08月13日由佚名发表 460 0

Reddit公司今天宣布已决定阻止互联网档案馆对其热门网络论坛进行索引，以防止一些人工智能公司为训练目的抓取其内容。

据报道，Reddit发现AI公司通过互联网档案馆的平台抓取其内容，此前它已限制这些公司通过其官方网站进行抓取。此决定意味着该组织的热门时光机服务将不再能够存档Reddit页面、帖子、个人资料或评论——除了主页上显示的内容。

《The Verge》的一份报告指出，今后，档案馆只能显示任何特定日期的热门帖子和新闻标题。此前，时光机能够存档每一个页面，记录Reddit自称为“互联网首页”上发布的所有内容。

Reddit没有说明哪些AI公司使用时光机绕过其对内容抓取的禁令。公司的一位发言人告诉The Verge，他们“意识到AI公司违反平台政策的情况……并从时光机抓取数据。”

公司似乎认为互联网档案馆应该采取措施防止这种抓取，因此希望这一决定不会是永久性的。然而，报告还强调了Reddit的一个担忧，即时光机有存档用户后来删除的帖子和评论的倾向，称这对用户隐私是个问题。

“在他们能够保护自己的网站并遵守平台政策之前，我们将限制他们对Reddit数据的某些访问，以保护Reddit用户，”公司表示。

尽管Reddit提出了用户隐私问题，但其阻止爬虫的主要动机可能是经济利益。AI公司明确被禁止抓取其网站，除非他们愿意付费访问这些数据。几家公司已经接受了Reddit的这一提议，尤其是Google LLC和OpenAI。

Reddit从未透露与OpenAI的协议价值多少，但与Google的协议据称价值约6000万美元。Reddit此前还表示，希望在未来三年通过此类许可协议产生多达2亿美元的收入。

一家似乎不愿意支付的公司是Anthropic PBC。6月，Reddit对其提起诉讼，称其在声称不再抓取后仍继续抓取其内容。

互联网档案馆并不是第一个因抓取问题被Reddit阻止的组织。2024年6月，这家社交媒体公司表示已阻止微软公司的Bing和较小的搜索引擎，如DuckDuckGo、Mojeek和Qwant，以防止其内容通过这些搜索引擎的档案被抓取。

目前尚不清楚互联网档案馆是否会采取措施防止其档案被抓取，以便解除Reddit的限制。时光机主任Mark Graham在一份声明中表示，他的团队正在就此事进行“持续讨论”。

文章来源：https://siliconangle.com/2025/08/11/reddit-says-blocking-internet-archive-stop-sneaky-ai-scrapers-accessing-content/

标签：

OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇埃隆·马斯克将就 ChatGPT 的 App Store 排名起诉苹果

下一篇 Claude Sonnet 4重大更新：支持100万个标记

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市