阿里云通义千问团队发布了两款全新的人工智能语音模型,可通过文本指令生成或克隆语音。其中,Qwen 3-TTS-VD-Flash 模型支持用户根据详细描述生成语音,能够精准定义情感、语速等声音特征。例如,用户可输入指令,生成 “一位中年男性的洪亮男中音 —— 活力爆棚的电视购物风格语音,语速极快,音调起伏夸张,满满推销感”。据官方介绍,该模型的性能优于今年春季早些时候推出的 OpenAI GPT-4o mini-tts 接口。
二款发布的模型是Qwn 3-TTS-VC-Flash,仅需三秒音频即可克隆声音,并能以十种语言还原该音色。通义千问团队表示,该模型的错误率低于 Elevenlabs、MiniMax 等同类竞品。此外,这款人工智能还可处理复杂文本、模拟动物叫声,并能从录音中提取目标声音。上述两款模型均可通过阿里云 API 调用,用户也可在 Hugging Face 平台体验这两款语音生成与克隆模型的演示版本。
