简介
CosyVoice 是阿里巴巴通义实验室开源的多语言语音合成模型。它以极高的生成自然度、零样本语音克隆能力和低延迟著称,是目前开源 TTS (Text-to-Speech) 领域的标杆之一。
模型版本 (2025.12)
| 模型 | 发布时间 | 特点 |
|---|---|---|
| CosyVoice 2.0 | 2025 | 韵律更自然,情感控制更细腻,支持方言 |
| CosyVoice 1.0 | 2024.07 | 首发版本,支持中英日韩等 5 种语言 |
核心能力
- 多语言支持:支持中文、英语、日语、韩语、粤语等多种语言及方言混合生成。
- 零样本克隆:仅需 3-10 秒的参考音频,即可克隆出音色、语气高度相似的语音。
- 情感控制:支持细粒度的情感调节(如开心、悲伤、愤怒)和语速控制。
- 实时流式:极低延迟,适合实时对话场景。
适用场景
- 有声读物:生成富有感情的旁白。
- 虚拟人/游戏:为 NPC 提供千人千面的声音。
- 跨语言内容:保留原说话人音色的视频翻译配音。
官方资源
- GitHub:https://github.com/FunAudioLLM/CosyVoice
- HuggingFace:https://huggingface.co/FunAudioLLM