MENU

Tacotron2 运行笔记

August 11, 2020 • Read: 16557 • Deep Learning阅读设置

项目地址 NVIDIA/tacotron2,先 clone 下来

  • git clone https://github.com/NVIDIA/tacotron2

配置环境

我的实验环境(ubuntu):

  • python==3.6.12
  • numpy==1.17.0
  • matplotlib==2.1.0
  • scipy==1.0.0
  • numba==0.48.0
  • librosa==0.6.0
  • tensorflow==1.15.2
  • pytorch==1.1.0
  • torchvision==0.3.0
  • inflect==0.2.5
  • Unidecode==1.0.22

由于我们实验室服务器的 cuda 版本是 9.0,因此只能使用 1.1.0 版的 PyTorch,否则无法使用 GPU。但是这个项目源码中使用了一些 PyTorch 1.3 以上的新功能,所以我要先修改一部分源码(如果你的 Pytorch 版本大于等于 1.3,可以略过这部分内容)

第一个要改的地方式是 utils.py 第 9 行

  • # mask = (ids < lengths.unsqueeze(1)).bool()
  • mask = (ids < lengths.unsqueeze(1)).to(torch.bool)

第二个要修改的地方是 model.py 第 401 和 488 行

  • # memory, mask=~get_mask_from_lengths(memory_lengths)
  • memory, mask = get_mask_from_lengths(memory_lengths) <= 0
  • # mask=~get_mask_from_lengths(output_lengths)
  • mask = get_mask_from_lengths(output_lengths) <= 0

以上是少数人需要做的改动,下面提到的是所有人都需要做的改动,就是将 filelists/ 目录下的三个文件内容进行适当修改

每个文件里面都有两列内容,第一列是语音数据所在的位置,第二列是该语音所对应的文本

我们要改的就是第一列,主要是根据你下载好的 LJSpeech Dataset 存放的路径。比方说我将 LJSpeech-1.1/ 放到了 tacotron2/ 目录底下,与 tacotron2/train.py 同级,那么我的路径就应该改为

开始训练

单 GPU

如果你只有一块 GPU,运行如下命令即开始训练

  • python train.py --output_directory=outdir --log_directory=logdir

多 GPU

多 GPU 训练,首先安装 Apex

  • git clone https://github.com/NVIDIA/apex
  • cd apex
  • pip install -v --no-cache-dir ./

然后手动新建一个目录 mkdir tacotron2/logs

最后运行如下命令

  • python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True

测试

测试的代码已经提供好了,就是 inference.ipynd 文件

首先我们注意到原本项目中,waveglow 文件夹是空的,需要先把 waveglow 的代码 clone 下来,否则导入 denoiser 会报错

  • git clone https://github.com/NVIDIA/waveglow.git

然后需要确保 tensorflow 版本是 1.x,如果是 2 会报错;如果提示没有 unidecode 这个库,请自行 pip

上面都是运行程序时会遇到的一些坑,下面是代码中需要修改的一些部分

首先在 Load model from checkpoint 中,checkpoint_path 可以不用官方提供的预训练模型,而使用自己训练的模型。自己训练的模型都保存在 outdir/ 中,选择一个合适的即可,比方说我选的是 outdir/checkpoint_59000

然后在 Load WaveGlow for mel2audio synthesis and denoiser 中,需要 waveglow_256channels_universal_v5.pt 这个文件,因此请下载 WaveGlow model

以上步骤都做完以后,就可以跑起来了

训练时常见报错的解决办法

  1. CUDA out of memory,将 hparams.py 中的 batch_size 参数值改小一点即可
  2. No module named numba.decorators ,先卸载 numbapip uninstall numba,然后安装 0.48.0 版本即可 pip install numba==0.48.0
  3. numpy.core.multiarray failed to import,确保自己安装的 numpy 版本小于 1.19,大于 1.15
Last Modified: October 11, 2020
Archives Tip
QR Code for this page
Tipping QR Code
Leave a Comment

20 Comments
  1. 凳子 凳子

    tacotron2 训练一般要多长时间呀?

    1. mathor mathor

      @凳子一张 2080ti,大概要 4 天左右

    2. 凳子 凳子

      @mathor 嗷嗷知道了,谢谢博主 @(太开心)

    3. 辉哥 辉哥

      @凳子请问生成的声音会自动播放吗?还是说会放在哪里呢?

  2. 凳子 凳子

    博主,请问你有没有对 clone 的 waveglow 代码进行单独的训练呀?

    1. mathor mathor

      @凳子没有,也不需要,直接下载他训练好的就行

  3. 辉哥 辉哥

    请问生成的声音会自动播放吗?还是说会放在哪里呢?

    1. mathor mathor

      @辉哥如果是在 jupyter 环境中,会有一个组件展示出来
      如果实在 linux 终端中需要修改下代码,将 mp3 改为保存到本地

    2. 辉哥 辉哥

      @mathor 这样啊,谢谢博主

  4. 菜鸡 菜鸡

    博主有用这个模型训练过着中文吗,效果怎么样

    1. mathor mathor

      @菜鸡效果不错

    2. 菜鸡 菜鸡

      @mathor 感谢博主,直接换数据训练就好了么,还是模型也要修改一下

    3. mathor mathor

      @菜鸡忘记了,但是首先 cleaners 要改,原本用的是 English cleaners

    4. 菜鸡 菜鸡

      @mathor 好的,谢谢博主的笔记,写得真好

  5. liu liu

    博主您好,您用 2080ti 训练的时候显存够用吗?batchsize=64 的时候

    1. mathor mathor

      @liu 不够

    2. dy gx dy gx

      @mathor 博主好,我按照你发的 一步一步来 出来了一个 error OSError: Failed to interpret file './LJSpeech-1.1/wavs/LJ041-0048.wav' as a pickle
      怎么解决呢

    3. mathor mathor

      @dy gxhttps://stackoverflow.com/questions/9070306/numpy-scipy-ipythonfailed-to-interpret-file-as-a-pickle

  6. 飞天 飞天

    你好,请问训练 taco2 时如果要修改采样率的话,还需要修改相应的其他参数,比如 max_wav_value 吗?

  7. 欧阳 欧阳

    AttributeError: module 'tensorflow._api.v1.compat.v1' has no attribute 'hparams'
    请问这个问题怎么解决,谢谢!