Tacotron2运行笔记

项目地址 NVIDIA/tacotron2，先 clone 下来

git clone https://github.com/NVIDIA/tacotron2

配置环境

我的实验环境（ubuntu）：

python==3.6.12
numpy==1.17.0
matplotlib==2.1.0
scipy==1.0.0
numba==0.48.0
librosa==0.6.0
tensorflow==1.15.2
pytorch==1.1.0
torchvision==0.3.0
inflect==0.2.5
Unidecode==1.0.22

由于我们实验室服务器的 cuda 版本是 9.0，因此只能使用 1.1.0 版的 PyTorch，否则无法使用 GPU。但是这个项目源码中使用了一些 PyTorch 1.3 以上的新功能，所以我要先修改一部分源码（如果你的 Pytorch 版本大于等于 1.3，可以略过这部分内容）

第一个要改的地方式是 utils.py 第 9 行

# mask = (ids < lengths.unsqueeze(1)).bool()
mask = (ids < lengths.unsqueeze(1)).to(torch.bool)

第二个要修改的地方是 model.py 第 401 和 488 行

# memory, mask=~get_mask_from_lengths(memory_lengths)
memory, mask = get_mask_from_lengths(memory_lengths) <= 0

# mask=~get_mask_from_lengths(output_lengths)
mask = get_mask_from_lengths(output_lengths) <= 0

以上是少数人需要做的改动，下面提到的是所有人都需要做的改动，就是将 filelists/ 目录下的三个文件内容进行适当修改

每个文件里面都有两列内容，第一列是语音数据所在的位置，第二列是该语音所对应的文本

我们要改的就是第一列，主要是根据你下载好的 LJSpeech Dataset 存放的路径。比方说我将 LJSpeech-1.1/ 放到了 tacotron2/ 目录底下，与 tacotron2/train.py 同级，那么我的路径就应该改为

开始训练

单 GPU

如果你只有一块 GPU，运行如下命令即开始训练

python train.py --output_directory=outdir --log_directory=logdir

多 GPU

多 GPU 训练，首先安装 Apex

git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --no-cache-dir ./

然后手动新建一个目录 mkdir tacotron2/logs

最后运行如下命令

python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True

测试

测试的代码已经提供好了，就是 inference.ipynd 文件

首先我们注意到原本项目中，waveglow 文件夹是空的，需要先把 waveglow 的代码 clone 下来，否则导入 denoiser 会报错

git clone https://github.com/NVIDIA/waveglow.git

然后需要确保 tensorflow 版本是 1.x，如果是 2 会报错；如果提示没有 unidecode 这个库，请自行 pip

上面都是运行程序时会遇到的一些坑，下面是代码中需要修改的一些部分

首先在 Load model from checkpoint 中，checkpoint_path 可以不用官方提供的预训练模型，而使用自己训练的模型。自己训练的模型都保存在 outdir/ 中，选择一个合适的即可，比方说我选的是 outdir/checkpoint_59000

然后在 Load WaveGlow for mel2audio synthesis and denoiser 中，需要 waveglow_256channels_universal_v5.pt 这个文件，因此请下载 WaveGlow model

以上步骤都做完以后，就可以跑起来了

训练时常见报错的解决办法

CUDA out of memory，将 hparams.py 中的 batch_size 参数值改小一点即可
No module named numba.decorators ，先卸载 numbapip uninstall numba，然后安装 0.48.0 版本即可 pip install numba==0.48.0
numpy.core.multiarray failed to import，确保自己安装的 numpy 版本小于 1.19，大于 1.15

20 Comments

凳子


February 15, 2021

tacotron2 训练一般要多长时间呀？
1. mathor
  
  
  February 15, 2021
  
  @凳子一张 2080ti，大概要 4 天左右
2. 凳子
  
  
  February 16, 2021
  
  @mathor 嗷嗷知道了，谢谢博主 @(太开心)
3. 辉哥
  
  
  March 12, 2021
  
  @凳子请问生成的声音会自动播放吗？还是说会放在哪里呢？
凳子


February 23, 2021

博主，请问你有没有对 clone 的 waveglow 代码进行单独的训练呀？
1. mathor
  
  
  February 23, 2021
  
  @凳子没有，也不需要，直接下载他训练好的就行
辉哥


March 12, 2021

请问生成的声音会自动播放吗？还是说会放在哪里呢？
1. mathor
  
  
  March 12, 2021
  
  @辉哥如果是在 jupyter 环境中，会有一个组件展示出来
  如果实在 linux 终端中需要修改下代码，将 mp3 改为保存到本地
2. 辉哥
  
  
  March 14, 2021
  
  @mathor 这样啊，谢谢博主
菜鸡


May 10, 2021

博主有用这个模型训练过着中文吗，效果怎么样
1. mathor
  
  
  May 10, 2021
  
  @菜鸡效果不错
2. 菜鸡
  
  
  May 10, 2021
  
  @mathor 感谢博主，直接换数据训练就好了么，还是模型也要修改一下
3. mathor
  
  
  May 10, 2021
  
  @菜鸡忘记了，但是首先 cleaners 要改，原本用的是 English cleaners
4. 菜鸡
  
  
  May 10, 2021
  
  @mathor 好的，谢谢博主的笔记，写得真好
liu


December 1, 2021

博主您好，您用 2080ti 训练的时候显存够用吗？batchsize=64 的时候
1. mathor
  
  
  December 1, 2021
  
  @liu 不够
2. dy gx
  
  
  February 22, 2022
  
  @mathor 博主好，我按照你发的一步一步来出来了一个 error OSError: Failed to interpret file './LJSpeech-1.1/wavs/LJ041-0048.wav' as a pickle
  怎么解决呢
3. mathor
  
  
  February 22, 2022
  
  @dy gxhttps://stackoverflow.com/questions/9070306/numpy-scipy-ipythonfailed-to-interpret-file-as-a-pickle
飞天


April 6, 2023

你好，请问训练 taco2 时如果要修改采样率的话，还需要修改相应的其他参数，比如 max_wav_value 吗？
欧阳


January 10, 2024

AttributeError: module 'tensorflow._api.v1.compat.v1' has no attribute 'hparams'
请问这个问题怎么解决，谢谢！

Tacotron2 运行笔记

August 11, 2020 • Read: 16557 • Deep Learning • 阅读设置

配置环境

开始训练

单 GPU

多 GPU

测试

训练时常见报错的解决办法