字节跳动在AI视频方面凭借Seedance 2.0取得了显著进展

2026年02月10日由 alex 发表 3754 0

字节跳动已向有限用户群体发布了Seedance 2.0。之前的型号已经是最强大的AI视频生成器之一。新版本更进一步。

多模态视频生成模型可同时处理多达四种输入：图像、视频、音频和文本。用户可以组合最多九张图片、三个视频和三个音频文件，总数最多十二个文件。生成的视频时长在4到15秒之间，并自动附带音效或音乐。

这些演示视频直接来自字节跳动，几乎可以确定是从大量生成片段中精选而来。目前还没人知道这款模型在实际使用中多稳定地达到这个质量标准，成本是多少，或者生成需要多长时间。所以我们看到的情况很可能是最好的情况——即使这些能力在纸面上看起来很出色，但要将其融入专业工作流程仍然存在重大障碍，比如一致性。不过，展示的质量确实令人印象深刻。

提示：镜头跟随一名穿黑衣的男子迅速逃离。他身后有一群人追赶他。镜头切换到侧向追逐镜头。那人惊慌地撞倒了一个路边的水果摊，然后爬起来继续跑。背景中传来人群兴奋的喊声。

提示：一个女孩优雅地挂衣服。洗完后，她从桶里拿出下一件衣服，用力摇晃。

据字节跳动介绍，最突出的新功能是参考功能：模特可以从上传的参考视频中获取镜头、动作和特效，替换角色，并无缝延长已有片段。视频编辑工作，比如替换或添加角色，也很重要。

用户只需写简单的文本命令，比如“取@image1作为场景的第一张图片。第一人称视角。取@Video1的摄像机运动。上面的场景基于@Frame2，左侧的场景是@Frame3，右侧的场景是@Frame4。”

用户会记录摄像机运动......

...AI模型会将其和其他元素一起转录到生成的视频中。

出于合规考虑，上传材料中真实的人脸目前被屏蔽。Seedance 2.0 目前在官方 Jimong 网站上以测试版形式发布，地址为 jimeng.jianying.com。

提示：照片中的人物脸上带着愧疚的表情，眼睛左右张望，然后探出相框。她迅速把手从相框中抽出，拿起一瓶可乐抿了一口，脸上露出满意的表情。此时，传来脚步声。照片中的人物匆忙把可乐放回原位。一个西部牛仔走过来，从杯子里拿走可乐走开了。最后，镜头向前移动，背景慢慢变黑，只有上方的聚光灯照亮了一罐可乐。屏幕底部出现了一个巧妙设计的字幕，配有旁白的声音：“一口可乐——你一定要尝尝！”

文章来源：https://the-decoder.com/bytedance-shows-impressive-progress-in-ai-video-with-seedance-2-0/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇物理AI初创公司Gather AI筹集4000万美元以扩展仓库智能

下一篇 Facebook新增AI功能、动画头像和文本帖子的背景

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体