多模态:人工智能的新前沿

2024年05月09日 由 samoyed 发表 57 0

多模态是一个相对较新的术语,用于描述一个极其古老的现象:自从人类出现以来,人们是如何了解世界的。个体通过他们的感官从无数来源接收信息,包括视觉、听觉和触觉。人类的大脑将这些不同的数据模式组合成一个高度细致、全面的现实图景。


technology-3464633_1280


“人与人之间的交流是多模态的,”Jina AI首席执行官韩霄(Han Xiao)说。“他们使用文本、语音、情绪、表情,有时还有照片。”这只是几种明显的分享信息的方式。因此,他补充道,“可以非常肯定地假设,未来人与机器之间的交流也将是多模态的。”


一个从多个角度看待世界的技术


我们尚未达到这个水平。在这方面最先进的发展出现在新兴的多模态AI领域。问题不在于缺乏愿景。爱丁堡大学的教授兼其综合人工智能实验室主任Mirella Lapata表示,虽然能够在不同模态之间进行翻译的技术显然很有价值,但“执行起来比单模态AI要复杂得多”。


在实践中,生成式AI工具在构建大型数据模型(即组织大量信息的复杂神经网络)时,会针对不同类型的数据使用不同的策略。例如,那些依赖于文本来源的模型会将单个标记(通常是单词)分开。每个标记都被分配一个“嵌入”或“向量”:一个数值矩阵,代表与其他标记相比,该标记是如何以及在哪里被使用的。整体上,这些向量创建了一个标记意义的数学表示。另一方面,图像模型可能会使用像素作为其嵌入的标记,而音频模型则可能会使用声音频率。


一个多模态AI模型通常依赖于几个单模态模型。正如AI咨询公司Latent Space的创始人Henry Ajder所说,这涉及“几乎将”各种贡献模型“串联起来”。这样做涉及各种技术来对齐每个单模态模型的元素,这个过程被称为融合。例如,单词“树”、一张橡树的图片,以及树叶沙沙作响的音频,可能会以这种方式进行融合。这使得模型能够创建对现实的多方面描述。

文章来源:https://www.technologyreview.com/2024/05/08/1092009/multimodal-ais-new-frontier/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消