Sepp Hochreiter从语言建模市场上启动OpenAI的探索

2023年07月27日 由 Susan 发表 190351 0
与人类一样,人工智能模型不会每秒钟都从头开始学习。相反,某种类型的神经网络添加了循环,将每个新的观察结果与之前观察到的结果一起解释。

在人工智能领域,LSTM(长短期记忆)显著改进了这些网络,使其准确度大幅提升。这个模型是由Sepp Hochreiter博士和德国科学家Juergen Schmidhuber在90年代末共同开发的。

"作为LSTM的继任者,我们有一个新东西。它没有被公开发表,而是被隐藏起来。它被称为XLSTM,"Josef "Sepp" Hochreiter教授在接受AIM的独家访谈中透露。这位德国计算机科学家目前是林茨约翰内斯·开普勒大学机器学习研究院的负责人。

Hochreiter及其团队目前正在使用较小的数据集与LSTM相结合,对每个转换器进行训练。他兴奋地表示:“我们比GPT要好得多,并且希望在自回归语言建模方面超过OpenAI,从市场上踢掉他们。”

作为由Sam Altman领导的OpenAI在硅谷的创业公司,自其推出赚钱的ChatGPT聊天机器人以来,OpenAI已经赢得了声望。根据路透社的报道,OpenAI预计到2024年将达到10亿美元的收入,因此该公司得到了市场的支持。

变压器,不够(令人信服)


在LSTM成为语言模型中的一个重要组成部分之前,它在Deepmind的Starcraft 2和OpenAI的Dota2等强化学习中的应用也取得了令人着迷的成功。

Hochreiter说:“更令人惊讶的是它在语言方面的表现如此出色,因为它并不是为语言而设计的。它是用于时间序列预测和序列分析的。”在该模型变得流行之前,他还将其用于蛋白质序列和DNA序列的研究。

这位55岁的教授认为,专注于语言是有益的,因为语言已经存在了人类发明的词汇,用于描述我们在现实世界中所见到的物体。他补充道:“这些概念、类别和抽象始终来源于人类,我期待看到人工智能创造出自己的概念,描述服务器并回答自己的抽象问题。”

如今,除了成为Alexa、Siri和Cortana等智能语音助手的核心模型外,LSTM还被世界各国的政府机构用于预测洪水和干旱。Hochreiter表示,他并不确信转换器技术适用于所有领域。他认为对于某些工程任务来说,LSTM与传统架构相互作用,对新事物有更好的感知。

GPT的问题


一些最大、最庞大的语言模型背后的训练数据仍然是一个谜。Hochreiter指出,一些规定正在出现,比如LAION(语言人工智能开放数据集)倡议,用于创建无法用于训练的内容的数据集。他说:“这是非常复杂的事情,因为不同的文化可能会对何为适宜或不适宜有不同的看法。这是一个问题。”

他进一步解释道:“在训练中,你不能使用某些书籍,OpenAI在这方面有些幼稚,因为他们使用了所有的数据,而可能很快就会出现诉讼。数据越多,模型的表现越好,但你必须注意对摘要和内容选择何种数据的总结。”

自从Midjourney和ChatGPT等生成式人工智能工具问世以来,对技术公司的指责不断增加。最新加入指责名单的是美国作家和喜剧演员Sarah Silverman。

“在语言模型中,你输入的内容,输出的结果就是同样的内容。第一件事就是对其能够说什么有一些规定,”Hochreiter说,而全球监管机构都在努力应对人工智能所面临的法律灰色地带。

背景故事


年轻的Hochreiter最初认为计算机科学对他来说很无聊,直到他发现了神经网络。“计算机科学的一切在30年前就已知晓,但在这里,你可以做到新的事情,它是如此迷人、未被探索,"他说。

作为深度学习的先驱者,他在提出LSTM之前就发现了消失梯度问题。“当我写毕业论文时,我的导师搬到了美国,已经是那里的博士后。当他回来时,我们有很多东西要写,然后试图在1995年将其发表在NeurIPS上,但被拒绝了。”

它在1997年成为一篇NeurIPS论文。“也许每个人都有类似的经历,”Hochreiter说,因为由于当前同行评审系统存在各种问题,要使一篇论文被接受是很困难的。有许多显著影响该领域的论文曾经非常难以被接受,但最终取得了重大影响,比如PageRank论文、卡尔曼滤波器论文和LSTM。

事情在2009年至2011年发生了变化,当Schmidhuber的学生Alex Graves与LSTM合作时,递归神经网络再次流行起来。谈到他的工作突然变得流行,Hochreiter说:“一切都很顺利,从谷歌、Facebook、脸书到亚马逊,所有的IT巨头都跳上了这个牛车。回头看,当时没有人感兴趣,我很惊讶它变得如此流行,因为我从一开始就知道它行得通。而且随着计算能力和更多数据的增长,它变得更加强大。”

虽然今天他正在开发一种与GPT竞争的模型,但Hochreiter不确定自己是否希望将这项技术保密,还是以公司的方式进行商业开发。他说:“我发表了LSTM,但没得到一分钱。”

“我想看看我能在不发表的情况下做些什么。这样我可以保留一些东西在欧洲,一种新的技术,它在语言建模方面的敏感度模型更好,但谁知道,因为我只在小数据集上进行工作。我一直没有说太多,但它是LSTM和Transformer思想的结合,"他总结道。

 

来源:https://analyticsindiamag.com/sepp-hochreiter-to-kick-out-openai-from-llm-supermarket/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消