多模态：人工智能的新前沿

2024年05月09日由 samoyed 发表 517 0

多模态是一个相对较新的术语，用于描述一个极其古老的现象：自从人类出现以来，人们是如何了解世界的。个体通过他们的感官从无数来源接收信息，包括视觉、听觉和触觉。人类的大脑将这些不同的数据模式组合成一个高度细致、全面的现实图景。

technology-3464633_1280

“人与人之间的交流是多模态的，”Jina AI首席执行官韩霄（Han Xiao）说。“他们使用文本、语音、情绪、表情，有时还有照片。”这只是几种明显的分享信息的方式。因此，他补充道，“可以非常肯定地假设，未来人与机器之间的交流也将是多模态的。”

一个从多个角度看待世界的技术

我们尚未达到这个水平。在这方面最先进的发展出现在新兴的多模态AI领域。问题不在于缺乏愿景。爱丁堡大学的教授兼其综合人工智能实验室主任Mirella Lapata表示，虽然能够在不同模态之间进行翻译的技术显然很有价值，但“执行起来比单模态AI要复杂得多”。

在实践中，生成式AI工具在构建大型数据模型（即组织大量信息的复杂神经网络）时，会针对不同类型的数据使用不同的策略。例如，那些依赖于文本来源的模型会将单个标记（通常是单词）分开。每个标记都被分配一个“嵌入”或“向量”：一个数值矩阵，代表与其他标记相比，该标记是如何以及在哪里被使用的。整体上，这些向量创建了一个标记意义的数学表示。另一方面，图像模型可能会使用像素作为其嵌入的标记，而音频模型则可能会使用声音频率。

一个多模态AI模型通常依赖于几个单模态模型。正如AI咨询公司Latent Space的创始人Henry Ajder所说，这涉及“几乎将”各种贡献模型“串联起来”。这样做涉及各种技术来对齐每个单模态模型的元素，这个过程被称为融合。例如，单词“树”、一张橡树的图片，以及树叶沙沙作响的音频，可能会以这种方式进行融合。这使得模型能够创建对现实的多方面描述。

文章来源：https://www.technologyreview.com/2024/05/08/1092009/multimodal-ais-new-frontier/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇微软最新研究报告揭示：75%知识工作者已在工作中使用生成式AI

下一篇 DeepMind CEO预测：复杂任务AI代理将于未来1-2年问世

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术