新的语音控制基于最近推出的同步视频音频生成 Kling 2.6。类似于谷歌的Veo 3或Sora 2,该模型能够生成匹配视频内容的音效,包括语音和音乐。
据Kling AI介绍,该功能支持多种类型的人声:说话、对话、旁白、唱歌和说唱。它还能处理环境噪声和合成场景声音。该模型既接受纯文本描述,也接受文本与图像的组合作为输入。
Kling AI 展示了众多应用场景:产品演示、生活方式视频博客、新闻播报、体育解说、纪录片、采访形式、戏剧短片以及音乐表演,包括歌唱甚至复调合唱。
自定义语音训练使角色更加一致
新的语音控制功能允许用户上传自己的声音来训练模型。他们也可以直接上传音频文件。训练过或上传的语音可以应用到文本转视频的创作中。
这提高了角色的一致性——生成视频中的角色现在可以用明确且易于识别的声音说话。这使得在多个视频片段中创建一致的角色成为可能。
体感控制现在更好地处理复杂动作
第二个主要功能是对体感控制的升级。据Kling AI介绍,该系统现在能更详细地捕捉全身动作。即使是快速复杂的动作,比如武术或舞蹈,也应该被更准确地处理。
公司特别强调了AI视频在两个通常存在不足的方面有所改进:手部动作现在应显得精准且无模糊,面部表情和口型同步应保持自然。
用户可以上传3到30秒的动作参考,以创建不间断的序列。场景细节也可以通过文本提示进行调整。
社交媒体上已经流传着令人印象深刻的例子,表明随着平台算法奖励快速点击,AI创作者抓住这一易得的果实,AI生成的视频内容将继续增长。与此同时,一些真正有创意的想法正在涌现。
竞争性定价
Kling 除了自有平台外,还可通过第三方平台如 Fal.ai、Artlist 和 Media.io 购买。这些提供商的API定价约为每秒生成视频0.07至0.14美元——极具竞争力。价格根据发电速度、长度和分辨率而异。KlingAI本身使用信用系统。

12月初,快手发布了Video O1,公司称之为“全球首个统一多模态视频模型”——将生成与剪辑集成于一体。Video O1 可以通过文本命令编辑现有视频,改变主角、天气或视频风格。
凭借这些全新的Kling 2.6功能,快手在竞争激烈的市场中与谷歌、OpenAI和Runway等西方企业,以及中国竞争对手如海洛、Seedance和Vidu竞争。
快手运营着kwai,这是全球最大的短视频平台之一,可与TikTok媲美。这使公司能够直接获取大量视频-音频对和运动数据,以训练具有同步声音和真实动作序列的视频模型。
