Ovis 1.6多模态模型实现结构对齐

2024年09月30日 由 daydream 发表 58 0

人工智能(AI)领域正在经历快速发展,特别是在多模态学习方面。多模态模型旨在结合视觉和文本信息,使机器能够理解和生成需要两种数据源输入的内容。这一能力对于图像描述、视觉问答和内容创作等需要多种数据模式的任务至关重要。尽管已开发出多种模型来解决这些挑战,但仅有部分模型有效地协调了视觉和文本数据的不同表示,导致在实际应用中存在效率低下和性能欠佳的问题。


多模态学习中的一个主要挑战在于文本和图像数据的编码与表示方式。文本数据通常使用来自查找表的嵌入进行定义,以确保结构化和一致的格式。相比之下,视觉数据则使用视觉变换器进行编码,产生的是非结构化的连续嵌入。这种表示上的差异使得现有多模态模型难以无缝融合视觉和文本数据。因此,模型在理解跨多种数据模态的复杂视觉-文本关系方面存在困难,限制了其在需要连贯理解的先进AI应用中的能力。


传统上,研究人员试图通过使用如多层感知器(MLP)这样的连接器,将视觉嵌入投影到可以与文本嵌入对齐的空间中来缓解这一问题。尽管这种架构在标准多模态任务中有效,但它必须解决视觉和文本嵌入之间的根本不对齐问题。像LLaVA和Mini-Gemini这样的领先模型采用了诸如交叉注意机制和双视觉编码器等高级方法来提高性能。然而,由于标记化和嵌入策略的内在差异,它们仍面临限制,这表明需要一种在结构层面上解决这些问题的新方法。


阿里巴巴集团和南京大学的研究团队推出了Ovis的新版本:Ovis 1.6。这是一款新型多模态大型语言模型(MLLM),它通过结构对齐视觉和文本嵌入来解决上述挑战。Ovis采用了一个独特的视觉嵌入查找表,该表与用于文本嵌入的表类似,用于创建结构化的视觉表示。这个表使视觉编码器能够产生与文本嵌入兼容的嵌入,从而实现更有效的视觉和文本信息整合。该模型还利用概率令牌对映射到视觉嵌入表中的视觉补丁进行多次映射。这种方法模仿了文本数据中使用的结构化表示,有助于视觉和文本输入的连贯组合。


微信截图_20240930115439


Ovis的核心创新在于使用视觉嵌入表将视觉令牌与其文本对应项对齐。每个图像补丁用一个概率令牌表示,并在视觉嵌入表中多次索引以生成最终的视觉嵌入。这个过程捕获了每个视觉补丁的丰富语义,并产生了结构上与文本令牌相似的嵌入。与依赖线性投影将视觉嵌入映射到联合空间的传统方法相比,Ovis采用了一种概率方法来生成更有意义的视觉嵌入。这种方法使Ovis能够克服基于连接器的架构的限制,并在多模态任务中取得更好的性能。


对Ovis的实证评估表明,它在与类似大小的开源MLLM相比时具有优越性。例如,在MathVista-Mini基准测试中,Ovis的得分为1808,显著高于竞争对手。同样,在RealWorldQA基准测试中,Ovis的表现也优于领先的专有模型,如GPT4V和Qwen-VL-Plus,得分为2230,而GPT4V的得分为2038。这些结果突显了Ovis在处理复杂多模态任务方面的优势,使其成为该领域未来进步的一个有前途的候选者。研究人员还在一系列通用多模态基准上评估了Ovis,包括MMBench和MMStar,在这些基准上,它一致性地超越了Mini-Gemini-HD和Qwen-VL-Chat等模型,具体提升幅度取决于基准测试,为7.8%至14.1%。


研究的主要发现包括:


  • 结构对齐:Ovis引入了一个新颖的视觉嵌入表,实现了视觉和文本嵌入的结构对齐,增强了模型处理多模态数据的能力。
  • 性能卓越:Ovis在各种基准测试中超越了相似大小的开源模型,与基于连接器的架构相比,性能提升了14.1%。
  • 高分辨率能力:该模型在需要高分辨率图像视觉理解的任务中表现出色,如在RealWorldQA基准测试中得分2230,比GPT4V高出192分。
  • 可扩展性:Ovis在不同参数级别(7B、14B)上表现出一致的性能,使其能够适应不同的模型大小和计算资源。
  • 实际应用:凭借其先进的多模态能力,Ovis可应用于复杂且具有挑战性的真实场景,包括视觉问答和图像描述,这些领域是现有模型的难题。


综上所述,研究人员成功解决了视觉和文本嵌入长期存在的不对齐问题。通过引入结构化的视觉嵌入策略,Ovis实现了更有效的多模态数据整合,在各种任务中提高了性能。该模型在与类似参数规模的开源和专有模型(如Qwen-VL-Max)相比时展现出的优越性,表明了其在多模态学习领域作为新标准的潜力。研究团队的方法为多模态大型语言模型的开发提供了重要进展,为未来的研究和应用提供了新的途径。

文章来源:https://www.marktechpost.com/2024/09/29/ovis-1-6-an-open-source-multimodal-large-language-model-mllm-architecture-designed-to-structurally-align-visual-and-textual-embeddings/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消