Transformer的创造者在NVIDIA GTC 2024会议重聚

2024年04月02日由 samoyed 发表 564 0

《Attention is All You Need》一书的所有作者，除了Niki Parmer之外，用了七年的时间才齐聚一堂。这一时刻终于在NVIDIA GTC 2024会议期间到来，该会议名为“Transforming AI”，由GPU领域的领导者Jensen Huang主持。

Character AI的创始人Noam Shazeer透露，Transformer架构曾一度被称为“CargoNet”，但在那时没有得到关注。

“有很多名字，有一个叫CargoNet的（是Convolution，Attention，Recognition，和Google的缩写）”，Shazeer兴奋地说。然而，这个名字并没有给人留下深刻印象，所有人都一致投票认为它“很糟糕”。

最终，Jakob Uszkroeit提出了“Transformer”这个名字。“它成为通用名称的原因是，在理论上，我们的关注点并不仅仅局限于翻译。我们当然意识到，我们正在尝试创造一些非常通用的东西，一些能够真正将任何事物转化为其他任何事物的东西，”Sakana AI的创始人Llion Jones说。

谈到Transformer的多模态性，Cohere的创始人Aidan Gomez说：“当我们构建Tensor库时，我们真的非常专注于扩大自回归训练的规模。它不仅仅适用于语言；其中还有用于图像、音频和文本的组件，既作为输入也作为输出。”

Transformer的创造者们现在都在忙些什么？

Illia Polusukhin是第一个在2017年离开谷歌的人。他最终创建了NEAR Protocol，这是一个区块链平台，旨在比现有的选项更快、更便宜、更用户友好。

Ashish Vaswani在2021年离开了谷歌。“我离开的一个主要原因是，要让这些模型变得更聪明，不能仅仅局限于实验室的真空环境中工作，实际上必须走出去，把它们交到人们的手中，”他说。

在2022年底，他和Niki Parmer共同创立了一家名为Essential AI的公司。“我们非常兴奋于构建这样的模型，它们最终可以像人类一样高效地学习解决新任务，就像观察我们所做的事情一样，”Vaswani说，并补充说他们的最终目标是改变我们与计算机的互动方式以及我们的工作方式。

与此同时，Shazeer在2021年创立了Character AI。“当时最大的困扰是，这项令人难以置信的技术并没有普及到每个人，它有着如此多的用途，”Noam兴奋而充满活力地表达道。

Gomez在2019年创立了Cohere。他说，Cohere背后的想法与Noam的想法相同，即他认为这项技术将改变世界，因为计算机开始与人类交流。

“我认为我与Noam的不同之处在于，Cohere是为企业而建的。我们为每个企业创建了一个平台，让它们可以采纳并将（genAI）集成到他们的产品中，而不是直接面向消费者，”Gomez说。

Jones在2023年与人共同创立了日本AI初创公司Sakana AI，这是一家受自然启发的人工智能公司。在日语中，Sakana意味着鱼。该公司目前正在研究一种名为Evolutionary Model Merge的技术，该技术将开源模型海洋中不同功能各异的模型结合在一起。

“我们正在手工制作算法。为此，我们使用了Hugging Face上所有可用的模型，然后使用大量的计算来进行进化计算，以搜索如何合并和堆叠层的方法，”Jones说。

“我想提醒大家，NVIDIA为我们提供了大量的计算能力，除了梯度下降之外，我们还可以做其他事情，”他补充道。

Lukasz Kaiser在2021年加入OpenAI。“那里是构建最佳Transformer的地方。在公司里有很多乐趣。我们知道你可以获取大量的数据和计算能力，然后创造出美好的东西，”Kaiser说。

Uszkroeit于2021年创立了Inceptive AI，旨在利用人工智能设计新型生物分子，用于疫苗、治疗和其他疗法，本质上创造了一种新的“生物软件”。Uszkroeit说：“我的第一个孩子在疫情期间出生，这确实让我重新认识到生命的脆弱性，当然还有其他原因。”

继Transformer之后，路在何方？

Jensen Huang向小组成员询问了Transformer基础设计最重要的改进。Gomez回答说，在推理方面已经做了大量工作来加速这些模型。然而，Gomez表示，他对今天所有的发展都是基于Transformer这一事实感到不满。

“我仍然觉得我们与原始形式的相似程度令人不安。我认为世界需要比Transformer更好的东西，”他说，并补充说他希望Transformer能被“新的性能高峰”所取代。“我认为它与六七年前的东西太相似了。”

Jones表示，像OpenAI这样的公司目前正在使用大量的计算能力。当Jensen问及他们对更大上下文窗口和更快令牌生成能力的兴趣时，他说：“我认为他们做了很多浪费的计算。”Jensen Huang迅速补充道：“我们正在努力提高效率。”

Uszkroeit认为，解决计算问题的关键在于正确的分配。“这实际上关乎投入适量的努力和最终的能源。”此外，对于SSM（状态空间模型），他认为它“太复杂”且“不够优雅”。

与此同时，Essential AI的首席执行官Ashish Vaswani认为，为了制造更好的模型，正确的界面至关重要。“如果我们最终想要构建能够通过观察我们而模仿和学习如何解决任务的模型，那么界面将变得至关重要，”他说。

Jones认为，许多年轻研究人员已经忘记了Transformer之前的时代。他表示，他们当时在尝试让事物运作时所面临的所有问题很可能仍然存在于这些模型中。“人们似乎忘记了Transformer之前的时代，所以他们必须重新发现所有这些问题，”他补充道。

Polusukhin表示，Transformer具有循环步骤。“有趣的是，我发现实际上没有人真正利用你可以以可变数量的步骤运行Transformer并对其进行不同训练的事实。”

与此同时，Lukasz Kaiser认为，我们从未真正学会如何使用梯度下降来训练循环层。“我个人相信，我们从未真正学会如何使用梯度下降来训练循环层。也许这根本就不可能，”他说。

文章来源：https://analyticsindiamag.com/transformer-was-once-called-cargonet/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇苹果推出ReALM系统可识别屏幕内容并互动

下一篇 Salesforce伦理学家认为讨论末日AI是“浪费时间”

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术