Meta人工智能揭示CM3leon，一种先进的文本到图像生成模型

2023年07月21日由 Susan 发表 296636 0

Meta人工智能推出了CM3leon，这是一种独特的多模态模型，结合了文本和图像生成。该模型是首款使用经修改的纯文本语言模型公式的模型，以无与伦比的计算效率产生卓越的结果。

这种新模型以最先进的速度生成文本到图像，并且使用的计算资源比早期基于Transformer的技术少五倍。它在保持低训练成本和高推理效率的同时，结合了自回归模型的适应性和效率。作为一种因果有序混合模态（CM3）模型，CM3leon通过能够根据其他文本和图像内容的任意顺序生成文本和图像序列，增强了先前模型的能力。

CM3leon具备自回归模型的强大和适应性特征，同时在训练和推理阶段具有显著的效率和经济性。这一重大进展克服了以往模型的限制，以往模型只限于执行纯文本或图像生成任务。

CM3Leon的架构使用了一个仅解码器的Transformer，类似于成熟的文本模型。然而，CM3Leon的独特之处在于它能够输入和生成文本和图像。这使得CM3Leon能够成功处理各种任务，如提示问题和模型生成。

根据Meta对自回归多模态模型的研究，扩散模型最近取代了图像生成的努力，因为它们具有卓越的性能和低计算成本。另一方面，基于标记的自回归模型也以同样出色的结果而闻名，特别是具有卓越的全局图像连贯性，但它们在训练和推理方面的成本要高得多。

生成模型在数百万样本照片的训练中变得越来越复杂，以学习视觉和文本之间的关系，但它们也可能反映出训练数据中存在的任何偏见。尽管通过稳定的扩散、DALL·E和Midjourney等热门工具，人们对由人工智能生成的图像越来越熟悉，但Meta人工智能构建CM3leon的方法以及它所承诺的性能提升代表了一个重大的飞跃。

来源：https://www.infoq.com/news/2023/07/meta-ai-cm3leon/

标签：

学习人工智能 Meta 图像生成模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇研究声称ChatGPT正在失去能力，但一些专家并不相信

下一篇深度学习视角下的扩散模型工作方式

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术