在过去的一年里,对文本到语音(TTS)技术的需求显著上升,这主要得益于其在可访问性、虚拟助手和教育等领域的广泛应用。与大型语言模型(LLMs)一样,TTS模型的发展也取得了巨大的进步,从简单的语音合成进化到现在能够生成更逼真、更像人类的语音。本文将深入探讨一些当今最流行的开源TTS模型,帮助您选择最适合您需求的模型。

XTTS-v2

主要特点:

  • 以最少的输入进行语音克隆:通过6秒的音频样本,可以复制多种语言的语音。
  • 多语言支持:支持17种语言。
  • 情感和语调转换:能够复制说话者的情感语调,提供更丰富的表达。
  • 低延迟性能:在消费级GPU上实现不到150毫秒的流延迟。
  • 免费用于非商业用途:根据Coqui公共模型许可证许可,但仅限非商业用途。 注意事项:
  • 仅限非商业用途:该模型仅允许非商业使用。
  • 项目关闭:原公司已于2024年初关闭,未来发展依赖于开源社区。

ChatTTS

主要特点:

  • 高质量的自然语音合成:经过大约100,000小时的中文和英语数据训练,提供流畅自然的语音。
  • 对话优化:专为对话任务设计,如LLM助手中的对话。
  • 令牌级控制:提供有限的基于令牌的控制,例如笑声和休息。
  • 情绪控制有限:目前只支持基本的情绪控制,未来版本将提供更多。 注意事项:
  • 有限的语言支持:目前仅支持英语和中文。
  • 稳定性问题:可能会遇到多扬声器输出或不一致性问题。

MeloTTS

主要特点:

  • 多语言和口音支持:支持广泛的语言和方言,包括英语的不同变体。
  • 实时推理优化:即使在CPU上也能实现实时推理。
  • 无语音克隆:不支持语音克隆功能。 注意事项:
  • 无语音克隆:不支持语音克隆功能,可能限制某些应用。

OpenVoice v2

主要特点:

  • 准确的音色克隆:可以从简短的音频片段中准确复制参考说话者的音色。
  • 多语言支持:支持多种语言,并精细控制语音属性(如情感、停顿、节奏、语调)。
  • 零样本语音克隆:支持零样本语音克隆,即可以在没有参考语音数据的情况下进行语音克隆。 注意事项:
  • 免费用于商业和非商业用途:根据MIT许可证授权。

Parler-TTS

主要特点:

  • Hugging Face上下载量最多的TTS模型之一
  • 针对快速推理优化:采用Efficient Attention Flash Attention 2.0技术,提高推理速度。
  • 风格控制:支持32种预定义扬声器样式。 注意事项:
  • 型号大小:有Mini和Large两个版本,分别适用于不同的计算资源和性能需求。