首页»行业  »   视觉识别  »   正文

Udacity开发AI框架,通过音频叙述生成讲座视频

Udacity开发AI框架,通过音频叙述生成讲座视频

为Coursera和EdX等大规模开放在线课程平台制作内容可能在学术上有所回报,但这很耗时,特别是在涉及视频的情况下。专业级讲座剪辑不仅需要工作室设备,还需要大量资源来传输和编辑每节课的镜头。

Udacity的研究科学家为了解决这些问题,正在研究一种机器学习框架,该框架可以自动从音频叙述中自动生成带有讲师的讲座视频,Udacity是一个拥有超过10万门课程的在线学习平台,其AI系统LumièreNet,可以通过直接映射音频和相应的视觉效果来合成任意长度的素材。

在目前的视频制作流程中,一个能够半自动或完全自动化大规模讲座视频制作的AI,对于实现敏捷视频内容开发(而非重新拍摄每个新视频)非常有价值。

研究作者写道,“我们提出了一种从任何长度的音频叙述中合成讲座视频的新方法,一个简单的,模块化的,完全基于神经网络的AI,可以根据音频叙述产生一个带有讲师的全部姿势讲座视频。”

研究人员的模型具有姿势估计组件,该组件从训练数据集中提取的视频帧合成人体图像,主要通过检测和定位主要身体点以创建详细的基于表面的人体表示。模型中的第二个模块是双向循环长短期内存(BLSTM)网络,按顺序处理数据(前向和后向),使每个输出反映其前面的输入和输出。

为了测试LumièreNet,研究人员在Udacity的内部工作室拍摄了一个讲师的讲座视频,时长大约8个小时。

Udacity开发AI框架,通过音频叙述生成讲座视频

研究人员报告称,训练有素的人工智能系统可以产生令人信服的剪辑,具有流畅的身体姿势和逼真的头发,但其创作可能不会骗过大多数受众。由于姿势估计器无法捕捉到眼睛运动,嘴唇,头发和衣服等精细细节,因此合成讲师很少眨眼,而且往往会不自然地移动嘴巴。更糟糕的是,他们的眼睛有时看向不同的方向,他们的手总是出现奇怪的模糊状。

该团队认为增加面部关键点(即精细细节)可能会带来更好的合成结果,幸运的是,他们的系统模块化设计允许每个组件独立地进行训练和改进。

研究人员写道:“尽管这种方法在当前的在线课程中至关重要,但我们承认有些人可能会滥用这些技术,我们希望我们的结果能够促进深度学习技术的新发展,并用于商业视频内容制作。”

论文:

arxiv.org/pdf/1907.02253.pdf

欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com

发表评论