项目地址NVIDIA/tacotron2,先clone下来
git clone https://github.com/NVIDIA/tacotron2
配置环境
我的实验环境(ubuntu):
python==3.6.12
numpy==1.17.0
matplotlib==2.1.0
scipy==1.0.0
numba==0.48.0
librosa==0.6.0
tensorflow==1.15.2
pytorch==1.1.0
torchvision==0.3.0
inflect==0.2.5
Unidecode==1.0.22
由于我们实验室服务器的cuda版本是9.0,因此只能使用1.1.0版的PyTorch,否则无法使用GPU。但是这个项目源码中使用了一些PyTorch 1.3以上的新功能,所以我要先修改一部分源码(如果你的Pytorch版本大于等于1.3,可以略过这部分内容)
第一个要改的地方式是utils.py
第9行
# mask = (ids < lengths.unsqueeze(1)).bool()
mask = (ids < lengths.unsqueeze(1)).to(torch.bool)
第二个要修改的地方是model.py
第401和488行
# memory, mask=~get_mask_from_lengths(memory_lengths)
memory, mask = get_mask_from_lengths(memory_lengths) <= 0
# mask=~get_mask_from_lengths(output_lengths)
mask = get_mask_from_lengths(output_lengths) <= 0
以上是少数人需要做的改动,下面提到的是所有人都需要做的改动,就是将filelists/
目录下的三个文件内容进行适当修改
每个文件里面都有两列内容,第一列是语音数据所在的位置,第二列是该语音所对应的文本
我们要改的就是第一列,主要是根据你下载好的LJSpeech Dataset存放的路径。比方说我将LJSpeech-1.1/
放到了tacotron2/
目录底下,与tacotron2/train.py
同级,那么我的路径就应该改为
开始训练
单GPU
如果你只有一块GPU,运行如下命令即开始训练
python train.py --output_directory=outdir --log_directory=logdir
多GPU
多GPU训练,首先安装Apex
git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --no-cache-dir ./
然后手动新建一个目录mkdir tacotron2/logs
最后运行如下命令
python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True
测试
测试的代码已经提供好了,就是inference.ipynd
文件
首先我们注意到原本项目中,waveglow文件夹是空的,需要先把waveglow的代码clone下来,否则导入denoiser会报错
git clone https://github.com/NVIDIA/waveglow.git
然后需要确保tensorflow版本是1.x,如果是2会报错;如果提示没有unidecode这个库,请自行pip
上面都是运行程序时会遇到的一些坑,下面是代码中需要修改的一些部分
首先在Load model from checkpoint中,checkpoint_path
可以不用官方提供的预训练模型,而使用自己训练的模型。自己训练的模型都保存在outdir/
中,选择一个合适的即可,比方说我选的是outdir/checkpoint_59000
然后在Load WaveGlow for mel2audio synthesis and denoiser中,需要waveglow_256channels_universal_v5.pt
这个文件,因此请下载WaveGlow model
以上步骤都做完以后,就可以跑起来了
训练时常见报错的解决办法
CUDA out of memory
,将hparams.py
中的batch_size
参数值改小一点即可No module named numba.decorators
,先卸载numbapip uninstall numba
,然后安装0.48.0版本即可pip install numba==0.48.0
numpy.core.multiarray failed to import
,确保自己安装的numpy版本小于1.19,大于1.15
tacotron2训练一般要多长时间呀?
一张2080ti,大概要4天左右
嗷嗷知道了,谢谢博主@(太开心)
请问生成的声音会自动播放吗?还是说会放在哪里呢?
博主,请问你有没有对clone的waveglow代码进行单独的训练呀?
没有,也不需要,直接下载他训练好的就行
请问生成的声音会自动播放吗?还是说会放在哪里呢?
如果是在jupyter环境中,会有一个组件展示出来如果实在linux终端中需要修改下代码,将mp3改为保存到本地
这样啊,谢谢博主
博主有用这个模型训练过着中文吗,效果怎么样
效果不错
感谢博主,直接换数据训练就好了么,还是模型也要修改一下
忘记了,但是首先cleaners要改,原本用的是English cleaners
好的,谢谢博主的笔记,写得真好
博主您好,您用2080ti训练的时候显存够用吗?batchsize=64的时候
不够
博主好,我按照你发的 一步一步来 出来了一个error OSError: Failed to interpret file './LJSpeech-1.1/wavs/LJ041-0048.wav' as a pickle怎么解决呢
https://stackoverflow.com/questions/9070306/numpy-scipy-ipythonfailed-to-interpret-file-as-a-pickle
你好,请问训练taco2时如果要修改采样率的话,还需要修改相应的其他参数,比如max_wav_value吗?
AttributeError: module 'tensorflow._api.v1.compat.v1' has no attribute 'hparams'
请问这个问题怎么解决,谢谢!