CosyVoice 系列

简介

CosyVoice 是阿里巴巴通义实验室开源的多语言语音合成模型。它以极高的生成自然度、零样本语音克隆能力和低延迟著称，是目前开源 TTS (Text-to-Speech) 领域的标杆之一。

模型版本 (2025.12)

模型	发布时间	特点
CosyVoice 2.0	2025	韵律更自然，情感控制更细腻，支持方言
CosyVoice 1.0	2024.07	首发版本，支持中英日韩等 5 种语言

核心能力

多语言支持：支持中文、英语、日语、韩语、粤语等多种语言及方言混合生成。
零样本克隆：仅需 3-10 秒的参考音频，即可克隆出音色、语气高度相似的语音。
情感控制：支持细粒度的情感调节（如开心、悲伤、愤怒）和语速控制。
实时流式：极低延迟，适合实时对话场景。

适用场景

有声读物：生成富有感情的旁白。
虚拟人/游戏：为 NPC 提供千人千面的声音。
跨语言内容：保留原说话人音色的视频翻译配音。

官方资源

GitHub：https://github.com/FunAudioLLM/CosyVoice
HuggingFace：https://huggingface.co/FunAudioLLM