生数科技联合清华大学正式发布中国首个长时长视频大模型Vidu

2024年04月28日由 neo 发表 1177 0

在2024中关村论坛年会未来人工智能先锋论坛上，清华大学与生数科技携手，于4月27日正式发布了中国首个具备长时长、高一致性、高动态性特点的视频大模型——Vidu。这一创新成果的诞生，标志着中国在视频生成技术领域的重大突破，并有望引领全球视频大模型技术的发展方向。

0db36238-3b3f-45a8-a0dc-dc7225b4a42f

据悉，Vidu采用了清华大学与生数科技团队原创的Diffusion与Transformer融合的架构U-ViT，该架构支持一键生成长达16秒、分辨率高达1080P的高清视频内容。这一技术的突破，不仅极大地提升了视频生成的效率，同时也保证了视频内容的高质量和高度一致性。

在论坛上，清华大学教授、生数科技首席科学家朱军详细介绍了Vidu的技术特点和应用前景。他表示，Vidu不仅能够模拟真实物理世界，还具备丰富的想象力，能够生成多镜头、时空一致性高的视频内容。同时，Vidu还能在视频中融入特有的中国元素，如熊猫、龙等，展示了中国文化的魅力。

2bd12039-7f9a-4194-a0cc-c28b4e26579d

值得一提的是，Vidu在生成视频时采用的是“一步到位”的方式，即从文本描述直接生成高质量视频，无需经过中间插帧或其他多步骤处理。这种端到端的生成方式，不仅简化了视频制作的流程，也提高了视频生成的效率和质量。

朱军教授还透露，Vidu的快速突破得益于团队在贝叶斯机器学习和多模态大模型领域的长期积累和多项原创性成果。U-ViT架构作为团队自主研发的核心技术，为Vidu的实现提供了有力支持。

随着人工智能技术的不断发展，视频大模型将在各个领域发挥越来越重要的作用。清华大学与生数科技的这一创新成果，无疑将为中国乃至全球的视频大模型技术发展注入新的动力。未来，我们期待看到更多基于Vidu技术的创新应用，为人类生活带来更多便利和乐趣。

朱军教授表示，Vidu的命名寓意深远，不仅谐音“Video”，更蕴含“We do”的寓意，体现了团队在视频大模型领域的坚定信念和不懈努力。未来，他们希望与产业链上下游企业、研究机构加强合作，共同推动视频大模型技术的进步，为人类社会的发展贡献更多力量。

文章来源：https://www.chinanews.com.cn/cj/2024/04-27/10207442.shtml

标签：

Vidu AI视频

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 VideoGigaGAN：视频超分辨新突破，8倍放大更清晰

下一篇为高效的视觉人工智能系统创建定制编程语言

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

热门企业

更多企业 »

热门职位

更多职位 »

深度学习软件工程师

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市