挑战Sora！谷歌发布新型视频生成模型Veo

2024年05月15日由 neo 发表 696 0

在今日举行的谷歌年度I/O开发者大会上，科技巨头谷歌正式揭晓了一款引领业界潮流的生成式AI视频模型——Veo。这款由DeepMind AI部门精心打造的模型，被业界认为是在现实主义和AI生成的运动视觉质量上，能够媲美甚至超越当前市场上其他竞品的重要里程碑。

Veo-IO-24

Google Veo以其强大的视频生成能力吸引了业界的广泛关注。该模型能够生成高质量的1080p视频剪辑，时长可超过60秒，且支持从写实到超现实主义和动画等多种电影风格的创作。谷歌表示，Veo的推出旨在帮助创建让视频制作对每个人都可访问的工具，无论是经验丰富的电影制作人、有抱负的创作者，还是希望分享知识的教育者，都能通过Veo解锁全新的创作可能性。

为了展示Veo的强大功能，谷歌与知名艺术家Donald Glover（即Childish Gambino）合作，通过他的创意工作室Gilga测试了Veo的AI视频生成能力。DeepMind在官方YouTube频道和社交媒体上发布了一系列令人震撼的视频和提示，包括逼真的霓虹城市、海洋中游泳的水母等，这些视频都是通过简单的文本提示生成的，效果几乎与现场动作或熟练的计算机生成动画无异。

据谷歌产品管理副总裁Eli Collins和高级研究总监Douglas Eck透露，Veo提供了前所未有的创造控制水平，能够理解诸如“延时”或“景观的航拍镜头”等专业的电影术语。此外，Veo还能轻松、快速地对AI生成的视频或用户上传的剪辑进行高质量编辑，只需通过文本提示即可完成。例如，用户可以通过输入“在海岸线的航拍镜头中添加皮划艇”的指令，Veo便能将这一命令应用到初始视频并生成一个全新的、编辑过的视频。

值得一提的是，Veo在视频帧之间实现了高度一致性，避免了其他竞品中常见的不稳定转换和伪影问题。这得益于Veo所依赖的“尖端的潜在扩散变换器”技术，该技术能够减少不一致性的出现，保持角色、物体和风格的位置稳定性，使生成的视频更加接近现实生活中的视觉体验。

为了进一步提高Veo的性能和效率，谷歌在其训练数据的每个视频字幕中添加了更多细节，并使用高质量的压缩视频表示（也称为潜在表示）。这些改进措施不仅提高了整体质量，还缩短了生成视频所需的时间。此外，所有通过Veo生成的视频都将嵌入SynthID内容凭证跟踪水印，以确保这些视频可以被识别为AI生成的作品。

veo-diagram

谷歌表示，Veo的推出标志着DeepMind多年研究的高潮，它建立在包括生成式查询网络（GQN）、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere等一系列先进技术的基础之上。尽管目前Veo尚未向公众开放，但谷歌计划通过加入等待名单的方式为选定的创作者提供私人预览。未来，谷歌还计划将Veo的一些功能扩展到YouTube Shorts和其他产品中。

随着谷歌Veo的发布，业界对于生成式AI在视频制作领域的应用前景充满了期待。这一创新技术有望为创作者们带来更加便捷、高效的创作工具，推动视频制作领域的持续发展。

文章来源：https://venturebeat.com/ai/google-takes-on-openais-sora-with-stunning-new-generative-ai-video-platform-veo/

标签：

谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌发布全新文本到图像模型Imagen 3：更高质量、更有创造性

下一篇 vivo“看见”App全新升级，搭载蓝心大模型辅助视障人士

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术