MENU

Tacotron2 with Transformers

May 3, 2021 • Read: 97 • Deep Learning阅读设置

  1. 无论将其中什么模块进行了替换,请一定要保证是按照字符级别进行编码的,或者说,一定要将句子拆成一个一个character,而不能是一个一个token。为什么我会强调这个?因为我亲身做过实验,当我把Taco2中Encoder部分替换为BERT-Based model时,利用了tokenizer方法,他将一句话拆分成了一些token,而不是一个一个字符,在训练阶段你可能看不出什么猫腻,因为loss也是正常下降的,但是在inference的时候,总是会提示"Warning! Reached max decoder steps",意思就是不管你输入多短的句子,哪怕只是一个单词,他也会将语音的时长拉满(例如,你只输入一个"Hello",结果它生成的语音有11秒,而且读的根本不知道什么东西),可想而知,这样画出来的attention图也是乱七八糟的
  2. 想到哪写到哪,反正我做实验的时候遇到坑还蛮多的
Last Modified: May 7, 2021
Archives Tip
QR Code for this page
Tipping QR Code