Stack Overflow 的版主是抵御AI的最后一道防线
2023年07月26日 由 Samoyed 发表
804353
0
最新统计数据显示,在过去一年半的时间里,Stack Overflow 的流量减少了约50%。
说Stack Overflow今年过得不太好,已经是保守的说法了。从社区对其提议的LLM产品的强烈反对,因对其API访问更改引发的轩然大波,自从ChatGPT爆红以来,这个社区问答平台一直受到抨击。然而,这并不是该网站人气下降的唯一原因。
新的统计数据显示,Stack Overflow在过去一年半的时间里失去了大约50%的流量。此外,作为其的生命线的问题和答案也减少了50%。同时,该网站的许多用户也感到越来越被限制。
该网站还在继续把控其内容的质量,不过增加对该网站的管制是有道理的。随着互联网上越来越多的人工智能内容,Stack Overflow 经过严格审核的数据库中丰富的用户驱动内容可能是人类生成的特定领域数据的最后堡垒。
在去年11月ChatGPT发布之前,Stack Overflow的用户数量就在稳步下降。这主要是由于该公司对审核的态度开始转向极端。Hacker News 论坛成员John Makin表示,
“Stack Overflow的审核已经变得越来越可怕。不知道有多少次我找到了我想要问的确切而奇怪的问题,但是我只看到一个评论试图回答它,然后就被版主以不够“主题”或其他理由强制地关闭了……。很多时候,尽管回答了确切的问题,但最佳答案却被埋没在评论中,而且反馈非常负面。”
这在很大程度上可以追溯到2023年6月5日,该网站的策划、用户和版主参加了一次调停罢工。这次活动的主要目的是抗议Stack Overflow反复无常的人工智能政策,该政策导致数千篇帖子被删除。这一禁令在今年5月被撤销,允许人工智能生成内容在该平台上发布,这让版主非常失望。
这导致版主对人工智能生成的内容发出警告,认为它将“随着时间的推移,使网站的价值变为零”。他们还认为,该公司忽视了社区的需求,而是专注于商业问题。通过罢工,他们希望引起人们对网站版主面临的问题的关注。
版主目前正在与网站所有者进行一场反击战,他们似乎正在慢慢取得胜利。他们成功地在生成式人工智能方面引入了一个临时解决方案,其中人工智能生成的内容将根据一组“强”和“弱”启发式规则进行检查,并以此来决定是否应该删除帖子。版主还成功地让Stack Overflow继续提供对数据转储和API访问的访问。这场斗争凸显了在人工智能时代坚持人工生成内容的重要性,尤其是在该公司试图以出售训练数据为生的情况下。
目前,许多开发人员已经转向使用聊天机器人来解决他们的编程问题。随着像ChatGPT这样的算法变得越来越好,它们在逻辑上解构代码的能力也变得越来越强。MachineHack的高级后端开发人员Kartik D在谈到Stack Overflow时表示:“为一个问题在Stack Overflow中找到正确答案是困难的,而在ChatGPT中更容易。结合GPT-3.5和Bard,你会得到很好的结果,但Bard中建议的结果通常重定向到Stack Overflow。”
这显示了Stack Overflow对GPT-4等大型语言模型的训练数据集的影响。众所周知,问答网站是最丰富的数据来源,对于大型语言模型来说尤其如此。这些数据不仅质量高,而且结构合理,可以获得最佳的训练效果。
Hacker News论坛上的用户maxlin完美地总结了这一点,他说:“尽管StackOverflow在常见用例中已经被ChatGPT所取代,但我衷心希望它能继续运营,保持严格的管理(即使会造成附带损害),并继续禁止 LLM 生成的内容……很明显,ChatGPT 的部分训练数据只能从健康的 StackOverflow 类型的网站中获得,这些网站的用户会积极提出独特的问题,并有足够多的人用深思熟虑的答案回答这些独特的问题。”
这也呼应了Reddit首席执行官Steve Huffman的说法,他曾表示Reddit的“数据语料库非常有价值”,因为它包含了人们“只会在治疗或匿名戒酒会说,或者根本不会说”的东西。这样一来,Stack Overflow 也包含了互联网上一些最具体的技术问题的答案,保持了高质量和最新性。
如果允许人工智能内容出现在网站上,那么整体内容的质量将会下降,而且会导致现在这种措辞严谨、结构严谨的答案变少。此外,更高的审核标准只会提高数据的质量,而这正是 Stack Overflow 在自我调试 LLM 日益强大的情况下所急需的。
来源:https://analyticsindiamag.com/stack-overflows-moderators-are-its-last-line-of-defense-against-ai-junk/