Meta将Segment Anything带到音频上,编辑者只需点击或文字提示即可从视频中提取声音

2025年12月29日 由 alex 发表 3239 0

Meta 正在将“Segment Anything”方法引入音频,专注于残像和3D模型。新的AI模型SAM Audio通过文本命令、时间标记或视觉点击,将单个声音源从复杂混音中分离出来。


Meta表示,该系统是首个能够跨不同输入方式处理这一任务的统一模型。它不再需要为每个用例单独使用工具,而是灵活响应用户抛出的任何类型的命令。




该系统提供三种可组合使用的控制方法。用户可以输入文字命令,如“狗叫”或“唱歌声”,以分离特定声音。他们可以直接点击视频中的物体或人物,提取匹配的音频。或者他们可以使用时间标记——称为span提示——来定位目标声音出现的片段。


Meta 在音乐制作、播客和电影剪辑方面有潜在应用;例如过滤外部镜头中的交通噪音,或在录音中分离乐器。

文章来源:https://the-decoder.com/meta-brings-segment-anything-to-audio-letting-editors-pull-sounds-from-video-with-a-click-or-text-prompt/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消