阿里巴巴全新Qwen模型仅需三秒音频即可克隆声音

2025年12月24日 由 alex 发表 3238 0

阿里云通义千问团队发布了两款全新的人工智能语音模型,可通过文本指令生成或克隆语音。其中,Qwen 3-TTS-VD-Flash 模型支持用户根据详细描述生成语音,能够精准定义情感、语速等声音特征。例如,用户可输入指令,生成 “一位中年男性的洪亮男中音 —— 活力爆棚的电视购物风格语音,语速极快,音调起伏夸张,满满推销感”。据官方介绍,该模型的性能优于今年春季早些时候推出的 OpenAI GPT-4o mini-tts 接口。



二款发布的模型是Qwn 3-TTS-VC-Flash,仅需三秒音频即可克隆声音,并能以十种语言还原该音色。通义千问团队表示,该模型的错误率低于 Elevenlabs、MiniMax 等同类竞品。此外,这款人工智能还可处理复杂文本、模拟动物叫声,并能从录音中提取目标声音。上述两款模型均可通过阿里云 API 调用,用户也可在 Hugging Face 平台体验这两款语音生成与克隆模型的演示版本。


文章来源:https://the-decoder.com/alibabas-new-qwen-models-can-clone-voices-from-three-seconds-of-audio/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消