Tacotron2运行笔记

项目地址NVIDIA/tacotron2，先clone下来

git clone https://github.com/NVIDIA/tacotron2

配置环境

我的实验环境（ubuntu）：

python==3.6.12
numpy==1.17.0
matplotlib==2.1.0
scipy==1.0.0
numba==0.48.0
librosa==0.6.0
tensorflow==1.15.2
pytorch==1.1.0
torchvision==0.3.0
inflect==0.2.5
Unidecode==1.0.22

由于我们实验室服务器的cuda版本是9.0，因此只能使用1.1.0版的PyTorch，否则无法使用GPU。但是这个项目源码中使用了一些PyTorch 1.3以上的新功能，所以我要先修改一部分源码（如果你的Pytorch版本大于等于1.3，可以略过这部分内容）

第一个要改的地方式是utils.py第9行

# mask = (ids < lengths.unsqueeze(1)).bool()
mask = (ids < lengths.unsqueeze(1)).to(torch.bool)

第二个要修改的地方是model.py第401和488行

# memory, mask=~get_mask_from_lengths(memory_lengths)
memory, mask = get_mask_from_lengths(memory_lengths) <= 0

# mask=~get_mask_from_lengths(output_lengths)
mask = get_mask_from_lengths(output_lengths) <= 0

以上是少数人需要做的改动，下面提到的是所有人都需要做的改动，就是将filelists/目录下的三个文件内容进行适当修改

每个文件里面都有两列内容，第一列是语音数据所在的位置，第二列是该语音所对应的文本

我们要改的就是第一列，主要是根据你下载好的LJSpeech Dataset存放的路径。比方说我将LJSpeech-1.1/放到了tacotron2/目录底下，与tacotron2/train.py同级，那么我的路径就应该改为

开始训练

单GPU

如果你只有一块GPU，运行如下命令即开始训练

python train.py --output_directory=outdir --log_directory=logdir

多GPU

多GPU训练，首先安装Apex

git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --no-cache-dir ./

然后手动新建一个目录mkdir tacotron2/logs

最后运行如下命令

python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True

测试

测试的代码已经提供好了，就是inference.ipynd文件

首先我们注意到原本项目中，waveglow文件夹是空的，需要先把waveglow的代码clone下来，否则导入denoiser会报错

git clone https://github.com/NVIDIA/waveglow.git

然后需要确保tensorflow版本是1.x，如果是2会报错；如果提示没有unidecode这个库，请自行pip

上面都是运行程序时会遇到的一些坑，下面是代码中需要修改的一些部分

首先在Load model from checkpoint中，checkpoint_path可以不用官方提供的预训练模型，而使用自己训练的模型。自己训练的模型都保存在outdir/中，选择一个合适的即可，比方说我选的是outdir/checkpoint_59000

然后在Load WaveGlow for mel2audio synthesis and denoiser中，需要waveglow_256channels_universal_v5.pt这个文件，因此请下载WaveGlow model

以上步骤都做完以后，就可以跑起来了

训练时常见报错的解决办法

CUDA out of memory，将hparams.py中的batch_size参数值改小一点即可
No module named numba.decorators ，先卸载numbapip uninstall numba，然后安装0.48.0版本即可pip install numba==0.48.0
numpy.core.multiarray failed to import，确保自己安装的numpy版本小于1.19，大于1.15

20 Comments

凳子


February 15, 2021

tacotron2训练一般要多长时间呀？
1. mathor
  
  
  February 15, 2021
  
  @凳子一张2080ti，大概要4天左右
2. 凳子
  
  
  February 16, 2021
  
  @mathor嗷嗷知道了，谢谢博主@(太开心)
3. 辉哥
  
  
  March 12, 2021
  
  @凳子请问生成的声音会自动播放吗？还是说会放在哪里呢？
凳子


February 23, 2021

博主，请问你有没有对clone的waveglow代码进行单独的训练呀？
1. mathor
  
  
  February 23, 2021
  
  @凳子没有，也不需要，直接下载他训练好的就行
辉哥


March 12, 2021

请问生成的声音会自动播放吗？还是说会放在哪里呢？
1. mathor
  
  
  March 12, 2021
  
  @辉哥如果是在jupyter环境中，会有一个组件展示出来
  如果实在linux终端中需要修改下代码，将mp3改为保存到本地
2. 辉哥
  
  
  March 14, 2021
  
  @mathor这样啊，谢谢博主
菜鸡


May 10, 2021

博主有用这个模型训练过着中文吗，效果怎么样
1. mathor
  
  
  May 10, 2021
  
  @菜鸡效果不错
2. 菜鸡
  
  
  May 10, 2021
  
  @mathor感谢博主，直接换数据训练就好了么，还是模型也要修改一下
3. mathor
  
  
  May 10, 2021
  
  @菜鸡忘记了，但是首先cleaners要改，原本用的是English cleaners
4. 菜鸡
  
  
  May 10, 2021
  
  @mathor好的，谢谢博主的笔记，写得真好
liu


December 1, 2021

博主您好，您用2080ti训练的时候显存够用吗？batchsize=64的时候
1. mathor
  
  
  December 1, 2021
  
  @liu不够
2. dy gx
  
  
  February 22, 2022
  
  @mathor博主好，我按照你发的一步一步来出来了一个error OSError: Failed to interpret file './LJSpeech-1.1/wavs/LJ041-0048.wav' as a pickle
  怎么解决呢
3. mathor
  
  
  February 22, 2022
  
  @dy gxhttps://stackoverflow.com/questions/9070306/numpy-scipy-ipythonfailed-to-interpret-file-as-a-pickle
飞天


April 6, 2023

你好，请问训练taco2时如果要修改采样率的话，还需要修改相应的其他参数，比如max_wav_value吗？
欧阳


3 Months Ago

AttributeError: module 'tensorflow._api.v1.compat.v1' has no attribute 'hparams'
请问这个问题怎么解决，谢谢！