项目地址 NVIDIA/tacotron2,先 clone 下来
- git clone https://github.com/NVIDIA/tacotron2
配置环境
我的实验环境(ubuntu):
- python==3.6.12
- numpy==1.17.0
- matplotlib==2.1.0
- scipy==1.0.0
- numba==0.48.0
- librosa==0.6.0
- tensorflow==1.15.2
- pytorch==1.1.0
- torchvision==0.3.0
- inflect==0.2.5
- Unidecode==1.0.22
由于我们实验室服务器的 cuda 版本是 9.0,因此只能使用 1.1.0 版的 PyTorch,否则无法使用 GPU。但是这个项目源码中使用了一些 PyTorch 1.3 以上的新功能,所以我要先修改一部分源码(如果你的 Pytorch 版本大于等于 1.3,可以略过这部分内容)
第一个要改的地方式是 utils.py
第 9 行
- # mask = (ids < lengths.unsqueeze(1)).bool()
- mask = (ids < lengths.unsqueeze(1)).to(torch.bool)
第二个要修改的地方是 model.py
第 401 和 488 行
- # memory, mask=~get_mask_from_lengths(memory_lengths)
- memory, mask = get_mask_from_lengths(memory_lengths) <= 0
-
- # mask=~get_mask_from_lengths(output_lengths)
- mask = get_mask_from_lengths(output_lengths) <= 0
以上是少数人需要做的改动,下面提到的是所有人都需要做的改动,就是将 filelists/
目录下的三个文件内容进行适当修改
每个文件里面都有两列内容,第一列是语音数据所在的位置,第二列是该语音所对应的文本
我们要改的就是第一列,主要是根据你下载好的 LJSpeech Dataset 存放的路径。比方说我将 LJSpeech-1.1/
放到了 tacotron2/
目录底下,与 tacotron2/train.py
同级,那么我的路径就应该改为
开始训练
单 GPU
如果你只有一块 GPU,运行如下命令即开始训练
- python train.py --output_directory=outdir --log_directory=logdir
多 GPU
多 GPU 训练,首先安装 Apex
- git clone https://github.com/NVIDIA/apex
- cd apex
- pip install -v --no-cache-dir ./
然后手动新建一个目录 mkdir tacotron2/logs
最后运行如下命令
- python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True
测试
测试的代码已经提供好了,就是 inference.ipynd
文件
首先我们注意到原本项目中,waveglow 文件夹是空的,需要先把 waveglow 的代码 clone 下来,否则导入 denoiser 会报错
- git clone https://github.com/NVIDIA/waveglow.git
然后需要确保 tensorflow 版本是 1.x,如果是 2 会报错;如果提示没有 unidecode 这个库,请自行 pip
上面都是运行程序时会遇到的一些坑,下面是代码中需要修改的一些部分
首先在 Load model from checkpoint 中,checkpoint_path
可以不用官方提供的预训练模型,而使用自己训练的模型。自己训练的模型都保存在 outdir/
中,选择一个合适的即可,比方说我选的是 outdir/checkpoint_59000
然后在 Load WaveGlow for mel2audio synthesis and denoiser 中,需要 waveglow_256channels_universal_v5.pt
这个文件,因此请下载 WaveGlow model
以上步骤都做完以后,就可以跑起来了
训练时常见报错的解决办法
CUDA out of memory
,将hparams.py
中的batch_size
参数值改小一点即可No module named numba.decorators
,先卸载 numbapip uninstall numba
,然后安装 0.48.0 版本即可pip install numba==0.48.0
numpy.core.multiarray failed to import
,确保自己安装的 numpy 版本小于 1.19,大于 1.15
tacotron2 训练一般要多长时间呀?
一张 2080ti,大概要 4 天左右
嗷嗷知道了,谢谢博主 @(太开心)
请问生成的声音会自动播放吗?还是说会放在哪里呢?
博主,请问你有没有对 clone 的 waveglow 代码进行单独的训练呀?
没有,也不需要,直接下载他训练好的就行
请问生成的声音会自动播放吗?还是说会放在哪里呢?
如果是在 jupyter 环境中,会有一个组件展示出来如果实在 linux 终端中需要修改下代码,将 mp3 改为保存到本地
这样啊,谢谢博主
博主有用这个模型训练过着中文吗,效果怎么样
效果不错
感谢博主,直接换数据训练就好了么,还是模型也要修改一下
忘记了,但是首先 cleaners 要改,原本用的是 English cleaners
好的,谢谢博主的笔记,写得真好
博主您好,您用 2080ti 训练的时候显存够用吗?batchsize=64 的时候
不够
博主好,我按照你发的 一步一步来 出来了一个 error OSError: Failed to interpret file './LJSpeech-1.1/wavs/LJ041-0048.wav' as a pickle怎么解决呢
https://stackoverflow.com/questions/9070306/numpy-scipy-ipythonfailed-to-interpret-file-as-a-pickle
你好,请问训练 taco2 时如果要修改采样率的话,还需要修改相应的其他参数,比如 max_wav_value 吗?
AttributeError: module 'tensorflow._api.v1.compat.v1' has no attribute 'hparams'
请问这个问题怎么解决,谢谢!