生数科技联合清华大学正式发布中国首个长时长视频大模型Vidu

2024年04月28日 由 neo 发表 112 0

在2024中关村论坛年会未来人工智能先锋论坛上,清华大学与生数科技携手,于4月27日正式发布了中国首个具备长时长、高一致性、高动态性特点的视频大模型——Vidu。这一创新成果的诞生,标志着中国在视频生成技术领域的重大突破,并有望引领全球视频大模型技术的发展方向。

0db36238-3b3f-45a8-a0dc-dc7225b4a42f

据悉,Vidu采用了清华大学与生数科技团队原创的Diffusion与Transformer融合的架构U-ViT,该架构支持一键生成长达16秒、分辨率高达1080P的高清视频内容。这一技术的突破,不仅极大地提升了视频生成的效率,同时也保证了视频内容的高质量和高度一致性。

在论坛上,清华大学教授、生数科技首席科学家朱军详细介绍了Vidu的技术特点和应用前景。他表示,Vidu不仅能够模拟真实物理世界,还具备丰富的想象力,能够生成多镜头、时空一致性高的视频内容。同时,Vidu还能在视频中融入特有的中国元素,如熊猫、龙等,展示了中国文化的魅力。

2bd12039-7f9a-4194-a0cc-c28b4e26579d

值得一提的是,Vidu在生成视频时采用的是“一步到位”的方式,即从文本描述直接生成高质量视频,无需经过中间插帧或其他多步骤处理。这种端到端的生成方式,不仅简化了视频制作的流程,也提高了视频生成的效率和质量。

朱军教授还透露,Vidu的快速突破得益于团队在贝叶斯机器学习和多模态大模型领域的长期积累和多项原创性成果。U-ViT架构作为团队自主研发的核心技术,为Vidu的实现提供了有力支持。

随着人工智能技术的不断发展,视频大模型将在各个领域发挥越来越重要的作用。清华大学与生数科技的这一创新成果,无疑将为中国乃至全球的视频大模型技术发展注入新的动力。未来,我们期待看到更多基于Vidu技术的创新应用,为人类生活带来更多便利和乐趣。

朱军教授表示,Vidu的命名寓意深远,不仅谐音“Video”,更蕴含“We do”的寓意,体现了团队在视频大模型领域的坚定信念和不懈努力。未来,他们希望与产业链上下游企业、研究机构加强合作,共同推动视频大模型技术的进步,为人类社会的发展贡献更多力量。

文章来源:https://www.chinanews.com.cn/cj/2024/04-27/10207442.shtml
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消