实时语音克隆

SV2TTS是一个分为三个阶段的深度学习框架。在第一阶段，人们从几秒钟的音频中创建声音的数字表示。在第二和第三阶段，该表示被用作参考来生成给定任意文本的语音。

论文实施

网址指定标题实现源码1806.04558SV2TTS从说话人验证到多说话人文本语音合成的迁移学习这个仓库1802.08435WaveRNN（声码器）高效的神经音频合成和弦/WaveRNN1703.10135Tacotron（合成器）Tacotron：走向端到端语音合成和弦/WaveRNN1710.10467GE2E（编码器）用于说话人验证的广义端到端损耗这个仓库

小心

与深度学习中的其他所有内容一样，这个存储库很快就会过时。许多其他开源存储库或 SaaS 应用程序（通常是付费的）将为您提供比此存储库更好的音频质量。如果您关心所克隆的声音的保真度及其表现力，以下是一些替代语音克隆解决方案的个人建议：

查看CoquiTTS以获得更新的开源存储库，该存储库具有更好的语音克隆质量和更多功能。
查看其他存储库的带有代码的论文以及语音合成领域的最新研究。
查看Resemble.ai（免责声明：我在那里工作），轻松轻松地进行最先进的语音克隆。

设置

1. 安装要求

Windows 和 Linux 均受支持。建议使用 GPU 来进行训练和推理速度，但这不是强制性的。
推荐使用Python 3.7。Python 3.5 或更高版本应该可以工作，但您可能必须调整依赖项的版本。我建议使用设置虚拟环境venv，但这是可选的。
安装ffmpeg。这是读取音频文件所必需的。
安装PyTorch。选择最新的稳定版本、您的操作系统、包管理器（默认为 pip），如果您有 GPU，最后选择任何建议的 CUDA 版本，否则选择 CPU。运行给定的命令。
安装其余要求pip install -r requirements.txt

2.（可选）下载预训练模型

现在会自动下载预训练模型。如果这不适合您，您可以在此处手动下载它们。

3.（可选）测试配置

在下载任何数据集之前，您可以通过以下方式开始测试您的配置：

python demo_cli.py

如果所有测试都通过，那么您就可以开始了。

4.（可选）下载数据集

对于单独使用工具箱，我只建议下载LibriSpeech/train-clean-100. 将内容提取到您选择的目录<datasets_root>/LibriSpeech/train-clean-100中。<datasets_root>工具箱支持其他数据集，请参阅此处。您可以不下载任何数据集，但是您将需要自己的数据作为音频文件，或者您必须使用工具箱录制它。

5.启动工具箱

然后您可以尝试工具箱：

python demo_toolbox.py -d <datasets_root>

或者

python demo_toolbox.py

取决于您是否下载了任何数据集。如果您正在运行 X-server 或者遇到错误Aborted (core dumped)，请参阅此问题。

实时语音克隆

© GVGNN 2013-2026