Sepp Hochreiter从语言建模市场上启动OpenAI的探索

2023年07月27日由 Susan 发表 190952 0

与人类一样，人工智能模型不会每秒钟都从头开始学习。相反，某种类型的神经网络添加了循环，将每个新的观察结果与之前观察到的结果一起解释。

在人工智能领域，LSTM（长短期记忆）显著改进了这些网络，使其准确度大幅提升。这个模型是由Sepp Hochreiter博士和德国科学家Juergen Schmidhuber在90年代末共同开发的。

"作为LSTM的继任者，我们有一个新东西。它没有被公开发表，而是被隐藏起来。它被称为XLSTM，"Josef "Sepp" Hochreiter教授在接受AIM的独家访谈中透露。这位德国计算机科学家目前是林茨约翰内斯·开普勒大学机器学习研究院的负责人。

Hochreiter及其团队目前正在使用较小的数据集与LSTM相结合，对每个转换器进行训练。他兴奋地表示：“我们比GPT要好得多，并且希望在自回归语言建模方面超过OpenAI，从市场上踢掉他们。”

作为由Sam Altman领导的OpenAI在硅谷的创业公司，自其推出赚钱的ChatGPT聊天机器人以来，OpenAI已经赢得了声望。根据路透社的报道，OpenAI预计到2024年将达到10亿美元的收入，因此该公司得到了市场的支持。

变压器，不够（令人信服）

在LSTM成为语言模型中的一个重要组成部分之前，它在Deepmind的Starcraft 2和OpenAI的Dota2等强化学习中的应用也取得了令人着迷的成功。

Hochreiter说：“更令人惊讶的是它在语言方面的表现如此出色，因为它并不是为语言而设计的。它是用于时间序列预测和序列分析的。”在该模型变得流行之前，他还将其用于蛋白质序列和DNA序列的研究。

这位55岁的教授认为，专注于语言是有益的，因为语言已经存在了人类发明的词汇，用于描述我们在现实世界中所见到的物体。他补充道：“这些概念、类别和抽象始终来源于人类，我期待看到人工智能创造出自己的概念，描述服务器并回答自己的抽象问题。”

如今，除了成为Alexa、Siri和Cortana等智能语音助手的核心模型外，LSTM还被世界各国的政府机构用于预测洪水和干旱。Hochreiter表示，他并不确信转换器技术适用于所有领域。他认为对于某些工程任务来说，LSTM与传统架构相互作用，对新事物有更好的感知。

GPT的问题

一些最大、最庞大的语言模型背后的训练数据仍然是一个谜。Hochreiter指出，一些规定正在出现，比如LAION（语言人工智能开放数据集）倡议，用于创建无法用于训练的内容的数据集。他说：“这是非常复杂的事情，因为不同的文化可能会对何为适宜或不适宜有不同的看法。这是一个问题。”

他进一步解释道：“在训练中，你不能使用某些书籍，OpenAI在这方面有些幼稚，因为他们使用了所有的数据，而可能很快就会出现诉讼。数据越多，模型的表现越好，但你必须注意对摘要和内容选择何种数据的总结。”

自从Midjourney和ChatGPT等生成式人工智能工具问世以来，对技术公司的指责不断增加。最新加入指责名单的是美国作家和喜剧演员Sarah Silverman。

“在语言模型中，你输入的内容，输出的结果就是同样的内容。第一件事就是对其能够说什么有一些规定，”Hochreiter说，而全球监管机构都在努力应对人工智能所面临的法律灰色地带。

背景故事

年轻的Hochreiter最初认为计算机科学对他来说很无聊，直到他发现了神经网络。“计算机科学的一切在30年前就已知晓，但在这里，你可以做到新的事情，它是如此迷人、未被探索，"他说。

作为深度学习的先驱者，他在提出LSTM之前就发现了消失梯度问题。“当我写毕业论文时，我的导师搬到了美国，已经是那里的博士后。当他回来时，我们有很多东西要写，然后试图在1995年将其发表在NeurIPS上，但被拒绝了。”

它在1997年成为一篇NeurIPS论文。“也许每个人都有类似的经历，”Hochreiter说，因为由于当前同行评审系统存在各种问题，要使一篇论文被接受是很困难的。有许多显著影响该领域的论文曾经非常难以被接受，但最终取得了重大影响，比如PageRank论文、卡尔曼滤波器论文和LSTM。

事情在2009年至2011年发生了变化，当Schmidhuber的学生Alex Graves与LSTM合作时，递归神经网络再次流行起来。谈到他的工作突然变得流行，Hochreiter说：“一切都很顺利，从谷歌、Facebook、脸书到亚马逊，所有的IT巨头都跳上了这个牛车。回头看，当时没有人感兴趣，我很惊讶它变得如此流行，因为我从一开始就知道它行得通。而且随着计算能力和更多数据的增长，它变得更加强大。”

虽然今天他正在开发一种与GPT竞争的模型，但Hochreiter不确定自己是否希望将这项技术保密，还是以公司的方式进行商业开发。他说：“我发表了LSTM，但没得到一分钱。”

“我想看看我能在不发表的情况下做些什么。这样我可以保留一些东西在欧洲，一种新的技术，它在语言建模方面的敏感度模型更好，但谁知道，因为我只在小数据集上进行工作。我一直没有说太多，但它是LSTM和Transformer思想的结合，"他总结道。

来源：https://analyticsindiamag.com/sepp-hochreiter-to-kick-out-openai-from-llm-supermarket/

标签：

行业 OpenAI 语言建模探索

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI由于“低准确率”而停止其人工智能写入检测器

下一篇人工智能究竟吞噬了多少工作岗位？

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来