MENU

Tacotron2运行笔记

August 11, 2020 • Read: 13815 • Deep Learning阅读设置

项目地址NVIDIA/tacotron2,先clone下来

git clone https://github.com/NVIDIA/tacotron2

配置环境

我的实验环境(ubuntu):

python==3.6.12
numpy==1.17.0
matplotlib==2.1.0
scipy==1.0.0
numba==0.48.0
librosa==0.6.0
tensorflow==1.15.2
pytorch==1.1.0
torchvision==0.3.0
inflect==0.2.5
Unidecode==1.0.22

由于我们实验室服务器的cuda版本是9.0,因此只能使用1.1.0版的PyTorch,否则无法使用GPU。但是这个项目源码中使用了一些PyTorch 1.3以上的新功能,所以我要先修改一部分源码(如果你的Pytorch版本大于等于1.3,可以略过这部分内容)

第一个要改的地方式是utils.py第9行

# mask = (ids < lengths.unsqueeze(1)).bool()
mask = (ids < lengths.unsqueeze(1)).to(torch.bool)

第二个要修改的地方是model.py第401和488行

# memory, mask=~get_mask_from_lengths(memory_lengths)
memory, mask = get_mask_from_lengths(memory_lengths) <= 0

# mask=~get_mask_from_lengths(output_lengths)
mask = get_mask_from_lengths(output_lengths) <= 0

以上是少数人需要做的改动,下面提到的是所有人都需要做的改动,就是将filelists/目录下的三个文件内容进行适当修改

每个文件里面都有两列内容,第一列是语音数据所在的位置,第二列是该语音所对应的文本

我们要改的就是第一列,主要是根据你下载好的LJSpeech Dataset存放的路径。比方说我将LJSpeech-1.1/放到了tacotron2/目录底下,与tacotron2/train.py同级,那么我的路径就应该改为

开始训练

单GPU

如果你只有一块GPU,运行如下命令即开始训练

python train.py --output_directory=outdir --log_directory=logdir

多GPU

多GPU训练,首先安装Apex

git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --no-cache-dir ./

然后手动新建一个目录mkdir tacotron2/logs

最后运行如下命令

python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True

测试

测试的代码已经提供好了,就是inference.ipynd文件

首先我们注意到原本项目中,waveglow文件夹是空的,需要先把waveglow的代码clone下来,否则导入denoiser会报错

git clone https://github.com/NVIDIA/waveglow.git

然后需要确保tensorflow版本是1.x,如果是2会报错;如果提示没有unidecode这个库,请自行pip

上面都是运行程序时会遇到的一些坑,下面是代码中需要修改的一些部分

首先在Load model from checkpoint中,checkpoint_path可以不用官方提供的预训练模型,而使用自己训练的模型。自己训练的模型都保存在outdir/中,选择一个合适的即可,比方说我选的是outdir/checkpoint_59000

然后在Load WaveGlow for mel2audio synthesis and denoiser中,需要waveglow_256channels_universal_v5.pt这个文件,因此请下载WaveGlow model

以上步骤都做完以后,就可以跑起来了

训练时常见报错的解决办法

  1. CUDA out of memory,将hparams.py中的batch_size参数值改小一点即可
  2. No module named numba.decorators ,先卸载numbapip uninstall numba,然后安装0.48.0版本即可pip install numba==0.48.0
  3. numpy.core.multiarray failed to import,确保自己安装的numpy版本小于1.19,大于1.15
Last Modified: October 11, 2020
Archives Tip
QR Code for this page
Tipping QR Code
Leave a Comment

20 Comments
  1. 凳子 凳子

    tacotron2训练一般要多长时间呀?

    1. mathor mathor

      @凳子一张2080ti,大概要4天左右

    2. 凳子 凳子

      @mathor嗷嗷知道了,谢谢博主@(太开心)

    3. 辉哥 辉哥

      @凳子请问生成的声音会自动播放吗?还是说会放在哪里呢?

  2. 凳子 凳子

    博主,请问你有没有对clone的waveglow代码进行单独的训练呀?

    1. mathor mathor

      @凳子没有,也不需要,直接下载他训练好的就行

  3. 辉哥 辉哥

    请问生成的声音会自动播放吗?还是说会放在哪里呢?

    1. mathor mathor

      @辉哥如果是在jupyter环境中,会有一个组件展示出来
      如果实在linux终端中需要修改下代码,将mp3改为保存到本地

    2. 辉哥 辉哥

      @mathor这样啊,谢谢博主

  4. 菜鸡 菜鸡

    博主有用这个模型训练过着中文吗,效果怎么样

    1. mathor mathor

      @菜鸡效果不错

    2. 菜鸡 菜鸡

      @mathor感谢博主,直接换数据训练就好了么,还是模型也要修改一下

    3. mathor mathor

      @菜鸡忘记了,但是首先cleaners要改,原本用的是English cleaners

    4. 菜鸡 菜鸡

      @mathor好的,谢谢博主的笔记,写得真好

  5. liu liu

    博主您好,您用2080ti训练的时候显存够用吗?batchsize=64的时候

    1. mathor mathor

      @liu不够

    2. dy gx dy gx

      @mathor博主好,我按照你发的 一步一步来 出来了一个error OSError: Failed to interpret file './LJSpeech-1.1/wavs/LJ041-0048.wav' as a pickle
      怎么解决呢

    3. mathor mathor

      @dy gxhttps://stackoverflow.com/questions/9070306/numpy-scipy-ipythonfailed-to-interpret-file-as-a-pickle

  6. 飞天 飞天

    你好,请问训练taco2时如果要修改采样率的话,还需要修改相应的其他参数,比如max_wav_value吗?

  7. 欧阳 欧阳

    AttributeError: module 'tensorflow._api.v1.compat.v1' has no attribute 'hparams'
    请问这个问题怎么解决,谢谢!