Sepp Hochreiter从语言建模市场上启动OpenAI的探索
2023年07月27日 由 Susan 发表
190563
0
与人类一样,人工智能模型不会每秒钟都从头开始学习。相反,某种类型的神经网络添加了循环,将每个新的观察结果与之前观察到的结果一起解释。
在人工智能领域,LSTM(长短期记忆)显著改进了这些网络,使其准确度大幅提升。这个模型是由Sepp Hochreiter博士和德国科学家Juergen Schmidhuber在90年代末共同开发的。
"作为LSTM的继任者,我们有一个新东西。它没有被公开发表,而是被隐藏起来。它被称为XLSTM,"Josef "Sepp" Hochreiter教授在接受AIM的独家访谈中透露。这位德国计算机科学家目前是林茨约翰内斯·开普勒大学机器学习研究院的负责人。
Hochreiter及其团队目前正在使用较小的数据集与LSTM相结合,对每个转换器进行训练。他兴奋地表示:“我们比GPT要好得多,并且希望在自回归语言建模方面超过OpenAI,从市场上踢掉他们。”
作为由Sam Altman领导的OpenAI在硅谷的创业公司,自其推出赚钱的ChatGPT聊天机器人以来,OpenAI已经赢得了声望。根据路透社的报道,OpenAI预计到2024年将达到10亿美元的收入,因此该公司得到了市场的支持。
变压器,不够(令人信服)
在LSTM成为语言模型中的一个重要组成部分之前,它在Deepmind的Starcraft 2和OpenAI的Dota2等强化学习中的应用也取得了令人着迷的成功。
Hochreiter说:“更令人惊讶的是它在语言方面的表现如此出色,因为它并不是为语言而设计的。它是用于时间序列预测和序列分析的。”在该模型变得流行之前,他还将其用于蛋白质序列和DNA序列的研究。
这位55岁的教授认为,专注于语言是有益的,因为语言已经存在了人类发明的词汇,用于描述我们在现实世界中所见到的物体。他补充道:“这些概念、类别和抽象始终来源于人类,我期待看到人工智能创造出自己的概念,描述服务器并回答自己的抽象问题。”
如今,除了成为Alexa、Siri和Cortana等智能语音助手的核心模型外,LSTM还被世界各国的政府机构用于预测洪水和干旱。Hochreiter表示,他并不确信转换器技术适用于所有领域。他认为对于某些工程任务来说,LSTM与传统架构相互作用,对新事物有更好的感知。
GPT的问题
一些最大、最庞大的语言模型背后的训练数据仍然是一个谜。Hochreiter指出,一些规定正在出现,比如LAION(语言人工智能开放数据集)倡议,用于创建无法用于训练的内容的数据集。他说:“这是非常复杂的事情,因为不同的文化可能会对何为适宜或不适宜有不同的看法。这是一个问题。”
他进一步解释道:“在训练中,你不能使用某些书籍,OpenAI在这方面有些幼稚,因为他们使用了所有的数据,而可能很快就会出现诉讼。数据越多,模型的表现越好,但你必须注意对摘要和内容选择何种数据的总结。”
自从Midjourney和ChatGPT等生成式人工智能工具问世以来,对技术公司的指责不断增加。最新加入指责名单的是美国作家和喜剧演员Sarah Silverman。
“在语言模型中,你输入的内容,输出的结果就是同样的内容。第一件事就是对其能够说什么有一些规定,”Hochreiter说,而全球监管机构都在努力应对人工智能所面临的法律灰色地带。
背景故事
年轻的Hochreiter最初认为计算机科学对他来说很无聊,直到他发现了神经网络。“计算机科学的一切在30年前就已知晓,但在这里,你可以做到新的事情,它是如此迷人、未被探索,"他说。
作为深度学习的先驱者,他在提出LSTM之前就发现了消失梯度问题。“当我写毕业论文时,我的导师搬到了美国,已经是那里的博士后。当他回来时,我们有很多东西要写,然后试图在1995年将其发表在NeurIPS上,但被拒绝了。”
它在1997年成为一篇NeurIPS论文。“也许每个人都有类似的经历,”Hochreiter说,因为由于当前同行评审系统存在各种问题,要使一篇论文被接受是很困难的。有许多显著影响该领域的论文曾经非常难以被接受,但最终取得了重大影响,比如PageRank论文、卡尔曼滤波器论文和LSTM。
事情在2009年至2011年发生了变化,当Schmidhuber的学生Alex Graves与LSTM合作时,递归神经网络再次流行起来。谈到他的工作突然变得流行,Hochreiter说:“一切都很顺利,从谷歌、Facebook、脸书到亚马逊,所有的IT巨头都跳上了这个牛车。回头看,当时没有人感兴趣,我很惊讶它变得如此流行,因为我从一开始就知道它行得通。而且随着计算能力和更多数据的增长,它变得更加强大。”
虽然今天他正在开发一种与GPT竞争的模型,但Hochreiter不确定自己是否希望将这项技术保密,还是以公司的方式进行商业开发。他说:“我发表了LSTM,但没得到一分钱。”
“我想看看我能在不发表的情况下做些什么。这样我可以保留一些东西在欧洲,一种新的技术,它在语言建模方面的敏感度模型更好,但谁知道,因为我只在小数据集上进行工作。我一直没有说太多,但它是LSTM和Transformer思想的结合,"他总结道。
来源:https://analyticsindiamag.com/sepp-hochreiter-to-kick-out-openai-from-llm-supermarket/