简介

CosyVoice 是阿里巴巴通义实验室开源的多语言语音合成模型。它以极高的生成自然度、零样本语音克隆能力和低延迟著称,是目前开源 TTS (Text-to-Speech) 领域的标杆之一。

模型版本 (2025.12)

模型发布时间特点
CosyVoice 2.02025韵律更自然,情感控制更细腻,支持方言
CosyVoice 1.02024.07首发版本,支持中英日韩等 5 种语言

核心能力

  • 多语言支持:支持中文、英语、日语、韩语、粤语等多种语言及方言混合生成。
  • 零样本克隆:仅需 3-10 秒的参考音频,即可克隆出音色、语气高度相似的语音。
  • 情感控制:支持细粒度的情感调节(如开心、悲伤、愤怒)和语速控制。
  • 实时流式:极低延迟,适合实时对话场景。

适用场景

  • 有声读物:生成富有感情的旁白。
  • 虚拟人/游戏:为 NPC 提供千人千面的声音。
  • 跨语言内容:保留原说话人音色的视频翻译配音。

官方资源