Meta 正在将“Segment Anything”方法引入音频,专注于残像和3D模型。新的AI模型SAM Audio通过文本命令、时间标记或视觉点击,将单个声音源从复杂混音中分离出来。
Meta表示,该系统是首个能够跨不同输入方式处理这一任务的统一模型。它不再需要为每个用例单独使用工具,而是灵活响应用户抛出的任何类型的命令。
该系统提供三种可组合使用的控制方法。用户可以输入文字命令,如“狗叫”或“唱歌声”,以分离特定声音。他们可以直接点击视频中的物体或人物,提取匹配的音频。或者他们可以使用时间标记——称为span提示——来定位目标声音出现的片段。
Meta 在音乐制作、播客和电影剪辑方面有潜在应用;例如过滤外部镜头中的交通噪音,或在录音中分离乐器。
