Udacity开发AI框架，通过音频叙述生成讲座视频

2019年07月08日由冯鸥发表 968562 0

为Coursera和EdX等大规模开放在线课程平台制作内容可能在学术上有所回报，但这很耗时，特别是在涉及视频的情况下。专业级讲座剪辑不仅需要工作室设备，还需要大量资源来传输和编辑每节课的镜头。

Udacity的研究科学家为了解决这些问题，正在研究一种机器学习框架，该框架可以自动从音频叙述中自动生成带有讲师的讲座视频，Udacity是一个拥有超过10万门课程的在线学习平台，其AI系统LumièreNet，可以通过直接映射音频和相应的视觉效果来合成任意长度的素材。

在目前的视频制作流程中，一个能够半自动或完全自动化大规模讲座视频制作的AI，对于实现敏捷视频内容开发（而非重新拍摄每个新视频）非常有价值。

研究作者写道，“我们提出了一种从任何长度的音频叙述中合成讲座视频的新方法，一个简单的，模块化的，完全基于神经网络的AI，可以根据音频叙述产生一个带有讲师的全部姿势讲座视频。”

研究人员的模型具有姿势估计组件，该组件从训练数据集中提取的视频帧合成人体图像，主要通过检测和定位主要身体点以创建详细的基于表面的人体表示。模型中的第二个模块是双向循环长短期内存（BLSTM）网络，按顺序处理数据（前向和后向），使每个输出反映其前面的输入和输出。

为了测试LumièreNet，研究人员在Udacity的内部工作室拍摄了一个讲师的讲座视频，时长大约8个小时。

研究人员报告称，训练有素的人工智能系统可以产生令人信服的剪辑，具有流畅的身体姿势和逼真的头发，但其创作可能不会骗过大多数受众。由于姿势估计器无法捕捉到眼睛运动，嘴唇，头发和衣服等精细细节，因此合成讲师很少眨眼，而且往往会不自然地移动嘴巴。更糟糕的是，他们的眼睛有时看向不同的方向，他们的手总是出现奇怪的模糊状。

该团队认为增加面部关键点（即精细细节）可能会带来更好的合成结果，幸运的是，他们的系统模块化设计允许每个组件独立地进行训练和改进。

研究人员写道：“尽管这种方法在当前的在线课程中至关重要，但我们承认有些人可能会滥用这些技术，我们希望我们的结果能够促进深度学习技术的新发展，并用于商业视频内容制作。”

论文：

arxiv.org/pdf/1907.02253.pdf

标签：

视觉识别 Udacity

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇微软键盘应用SwiftKey利用AI，将面部表情的实时模拟成3D动物

下一篇相机对准外文，谷歌翻译将自动检测语言并即时翻译

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术