阿里巴巴全新Qwen模型仅需三秒音频即可克隆声音 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

登录注册

资讯

学习

基础知识理论实践学习教程

企业招聘

下载

模型数据集

AI工具箱

企业服务

EVA 智能HR 视频AI

ChatGPT 人工智能应用人工智能未来计算机视觉

热门新闻

行业人工智能

所以，能动手就别吵吵了

行业人工智能

为什么数据污染对LLM来说是一个大问题

机器人康奈尔大学

康奈尔大学推出新的社交机器人，更柔软，更人性化

常用工具

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub AI编程工具

Adobe最新推出的AI图片生成工具

AI艺术和创意辅助平台

您尚未登录账户

请先登录您的atyun账户，方可使用该功能

仅限企业账户使用

该功能仅限企业账号使用，开通企业账号可享受更多服务，是否现在注册企业账号？

立即注册企业账号

暂不需要

您的企业账号申请正在审核中

审核通过后即可使用此功能，请耐心等待~

阿里巴巴全新Qwen模型仅需三秒音频即可克隆声音

2025年12月24日由 alex 发表 3812 0

阿里云通义千问团队发布了两款全新的人工智能语音模型，可通过文本指令生成或克隆语音。其中，Qwen 3-TTS-VD-Flash 模型支持用户根据详细描述生成语音，能够精准定义情感、语速等声音特征。例如，用户可输入指令，生成 “一位中年男性的洪亮男中音 —— 活力爆棚的电视购物风格语音，语速极快，音调起伏夸张，满满推销感”。据官方介绍，该模型的性能优于今年春季早些时候推出的 OpenAI GPT-4o mini-tts 接口。

二款发布的模型是Qwn 3-TTS-VC-Flash，仅需三秒音频即可克隆声音，并能以十种语言还原该音色。通义千问团队表示，该模型的错误率低于 Elevenlabs、MiniMax 等同类竞品。此外，这款人工智能还可处理复杂文本、模拟动物叫声，并能从录音中提取目标声音。上述两款模型均可通过阿里云 API 调用，用户也可在 Hugging Face 平台体验这两款语音生成与克隆模型的演示版本。

文章来源：https://the-decoder.com/alibabas-new-qwen-models-can-clone-voices-from-three-seconds-of-audio/

标签：

阿里 qwen

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇智谱 AI以低成本 GLM-4.7 挑战西方竞争对手

下一篇 Waymo测试Gemini作为自动驾驶出租车的车载AI助手

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体

Grok 4.5登场：编码与长程智能体再升级

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub AI编程工具

Adobe最新推出的AI图片生成工具

AI艺术和创意辅助平台

OpenAI首款推理芯片亮相，年底开始部署

本周热门

更多资讯 »

热门企业

更多企业 »

热门职位

更多职位 »

深度学习软件工程师

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市

OpenAI GPT-Live：实时语音模型再升级

写评论取消

回复取消