Vidu推出AI图像生成更新，通过参考图像创造富有想象力的现实主义

2025年09月09日由佚名发表 663 0

Vidu是中国一家以人工智能为核心的公司盛数科技，今天发布了其平台的新更新。该更新允许用户上传多个参考图像，并通过AI模型将这些图像组合成生动且高度一致的生成图片，从而“重新定义摄影”。

该公司以其生成式AI视频平台和基础模型而闻名，用户可以通过编写自然语言输入并添加参考图像来生成短场景。模型能够利用参考图像在场景中创建元素和对象，确保场景之间的高度一致性。

Vidu表示，它已经在图像生成中实施了类似的技术，称为参考到图像，允许用户在生成内容中实现更大的控制和一致性，最多可上传七张图像。

用户使用此更新时，该公司的模型通过所谓的“语义理解”来解释多张图像之间的关系，以实现更高的一致性。这种能力在AI模型中一直存在一定的挑战，直到最近，像Google LLC的Gemini 2.5 Flash Image，也被称为“纳米香蕉”，的模型取得了突破，使得这一技术更易于访问。

例如，用户可以使用Vidu的参考到图像功能，通过文本提示和多张独立图像从头生成新图像。根据Vidu的说法，这使得照片的快速编辑成为可能，并且具有极高的一致性。

例如，摄影师可以在拍摄婚礼照片时添加元素，如花束，改变桌子上的花卉风格或调整光线，即使是在阴天或下雨天。用户可以使用该功能修改不太符合预期的自拍，换掉衬衫上的标志或将自己置于不同的场景中。市场营销人员和广告商可以快速合成包含产品的AI生成“照片”或在已完成的广告拍摄中更换产品模型。

Vidu表示，它显著提高了其即时图像编辑能力，以与当前的编辑平台竞争。希望使用AI进行生成图像合成的用户通常需要依赖编辑平台或像开源工具ComfyUI这样的高级工作流构建器来实现一致性和控制。

公司表示，使用此新功能可用的编辑功能包括重混、部分和完整对象替换以及添加对象。用户可以使用多个输入图像并自由地将它们合成到单个图像中，公司称其为“高一致性”，与市场上的其他模型相比，包括视觉合理性。用户可以通过部分替换或对象替换来修改对象的外观，例如更改服装或雨伞的颜色，或完全用不同的对象替换。

Vidu的新模型功能在生成图像编辑和生产能力方面与Google的纳米香蕉和Black Forest Labs Inc.的Flux Context竞争。公司表示，其模型通过提供所谓的“无与伦比的图像和角色一致性，以及自然图像混合以获得更丰富和更真实的细节”而脱颖而出，包括能够清晰地从参考图像中传递视觉和嵌入文本。现代生成式AI图像模型仍然难以准确渲染文本，即使有参考图像。

文章来源：https://siliconangle.com/2025/09/08/vidu-launches-ai-image-generation-update-reference-image-creating-imaginative-realism/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌AI模式新增五种语言，包括印地语、日语和韩语

下一篇 Anthropic支持加州AI安全法案SB 53

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体