BERT的PyTorch实现

本文主要介绍一下如何使用 PyTorch 复现BERT。请先花上 10 分钟阅读我的这篇文章 BERT详解（附带ELMo、GPT介绍），再来看本文，方能达到醍醐灌顶，事半功倍的效果

准备数据集

这里我并没有用什么大型的数据集，而是手动输入了两个人的对话，主要是为了降低代码阅读难度，我希望读者能更关注模型实现的部分

'''
  code by Tae Hwan Jung(Jeff Jung) @graykode, modify by wmathor
  Reference : https://github.com/jadore801120/attention-is-all-you-need-pytorch
         https://github.com/JayParks/transformer, https://github.com/dhlee347/pytorchic-bert
'''
import re
import math
import torch
import numpy as np
from random import *
import torch.nn as nn
import torch.optim as optim
import torch.utils.data as Data

text = (
    'Hello, how are you? I am Romeo.\n' # R
    'Hello, Romeo My name is Juliet. Nice to meet you.\n' # J
    'Nice meet you too. How are you today?\n' # R
    'Great. My baseball team won the competition.\n' # J
    'Oh Congratulations, Juliet\n' # R
    'Thank you Romeo\n' # J
    'Where are you going today?\n' # R
    'I am going shopping. What about you?\n' # J
    'I am going to visit my grandmother. she is not very well' # R
)
sentences = re.sub("[.,!?\\-]", '', text.lower()).split('\n') # filter '.', ',', '?', '!'
word_list = list(set(" ".join(sentences).split())) # ['hello', 'how', 'are', 'you',...]
word2idx = {'[PAD]' : 0, '[CLS]' : 1, '[SEP]' : 2, '[MASK]' : 3}
for i, w in enumerate(word_list):
    word2idx[w] = i + 4
idx2word = {i: w for i, w in enumerate(word2idx)}
vocab_size = len(word2idx)

token_list = list()
for sentence in sentences:
    arr = [word2idx[s] for s in sentence.split()]
    token_list.append(arr)

最终token_list是个二维的list，里面每一行代表一句话

print(token_list)
'''
[[12, 7, 22, 5, 39, 21, 15],
 [12, 15, 13, 35, 10, 27, 34, 14, 19, 5],
 [34, 19, 5, 17, 7, 22, 5, 8],
 [33, 13, 37, 32, 28, 11, 16],
 [30, 23, 27],
 [6, 5, 15],
 [36, 22, 5, 31, 8],
 [39, 21, 31, 18, 9, 20, 5],
 [39, 21, 31, 14, 29, 13, 4, 25, 10, 26, 38, 24]]
'''

模型参数

# BERT Parameters
maxlen = 30
batch_size = 6
max_pred = 5 # max tokens of prediction
n_layers = 6
n_heads = 12
d_model = 768
d_ff = 768*4 # 4*d_model, FeedForward dimension
d_k = d_v = 64  # dimension of K(=Q), V
n_segments = 2

maxlen表示同一个batch中的所有句子都由30个token组成，不够的补PAD（这里我实现的方式比较粗暴，直接固定所有batch中的所有句子都为30）
max_pred表示最多需要预测多少个单词，即BERT中的完形填空任务
n_layers表示Encoder Layer的数量
d_model表示Token Embeddings、Segment Embeddings、Position Embeddings的维度
d_ff表示Encoder Layer中全连接层的维度
n_segments表示Decoder input由几句话组成

数据预处理

数据预处理部分，我们需要根据概率随机make或者替换（以下统称mask）一句话中15%的token，还需要拼接任意两句话

# sample IsNext and NotNext to be same in small batch size
def make_data():
    batch = []
    positive = negative = 0
    while positive != batch_size/2 or negative != batch_size/2:
        tokens_a_index, tokens_b_index = randrange(len(sentences)), randrange(len(sentences)) # sample random index in sentences
        tokens_a, tokens_b = token_list[tokens_a_index], token_list[tokens_b_index]
        input_ids = [word2idx['[CLS]']] + tokens_a + [word2idx['[SEP]']] + tokens_b + [word2idx['[SEP]']]
        segment_ids = [0] * (1 + len(tokens_a) + 1) + [1] * (len(tokens_b) + 1)

        # MASK LM
        n_pred =  min(max_pred, max(1, int(len(input_ids) * 0.15))) # 15 % of tokens in one sentence
        cand_maked_pos = [i for i, token in enumerate(input_ids)
                          if token != word2idx['[CLS]'] and token != word2idx['[SEP]']] # candidate masked position
        shuffle(cand_maked_pos)
        masked_tokens, masked_pos = [], []
        for pos in cand_maked_pos[:n_pred]:
            masked_pos.append(pos)
            masked_tokens.append(input_ids[pos])
            if random() < 0.8:  # 80%
                input_ids[pos] = word2idx['[MASK]'] # make mask
            elif random() > 0.9:  # 10%
                index = randint(0, vocab_size - 1) # random index in vocabulary
                while index < 4: # can't involve 'CLS', 'SEP', 'PAD'
                  index = randint(0, vocab_size - 1)
                input_ids[pos] = index # replace

        # Zero Paddings
        n_pad = maxlen - len(input_ids)
        input_ids.extend([0] * n_pad)
        segment_ids.extend([0] * n_pad)

        # Zero Padding (100% - 15%) tokens
        if max_pred > n_pred:
            n_pad = max_pred - n_pred
            masked_tokens.extend([0] * n_pad)
            masked_pos.extend([0] * n_pad)

        if tokens_a_index + 1 == tokens_b_index and positive < batch_size/2:
            batch.append([input_ids, segment_ids, masked_tokens, masked_pos, True]) # IsNext
            positive += 1
        elif tokens_a_index + 1 != tokens_b_index and negative < batch_size/2:
            batch.append([input_ids, segment_ids, masked_tokens, masked_pos, False]) # NotNext
            negative += 1
    return batch
# Proprecessing Finished

batch = make_data()
input_ids, segment_ids, masked_tokens, masked_pos, isNext = zip(*batch)
input_ids, segment_ids, masked_tokens, masked_pos, isNext = \
    torch.LongTensor(input_ids),  torch.LongTensor(segment_ids), torch.LongTensor(masked_tokens),\
    torch.LongTensor(masked_pos), torch.LongTensor(isNext)

class MyDataSet(Data.Dataset):
  def __init__(self, input_ids, segment_ids, masked_tokens, masked_pos, isNext):
    self.input_ids = input_ids
    self.segment_ids = segment_ids
    self.masked_tokens = masked_tokens
    self.masked_pos = masked_pos
    self.isNext = isNext
  
  def __len__(self):
    return len(self.input_ids)
  
  def __getitem__(self, idx):
    return self.input_ids[idx], self.segment_ids[idx], self.masked_tokens[idx], self.masked_pos[idx], self.isNext[idx]

loader = Data.DataLoader(MyDataSet(input_ids, segment_ids, masked_tokens, masked_pos, isNext), batch_size, True)

上述代码中，positive变量代表两句话是连续的个数，negative代表两句话不是连续的个数，我们需要做到在一个batch中，这两个样本的比例为1:1。随机选取的两句话是否连续，只要通过判断tokens_a_index + 1 == tokens_b_index即可

然后是随机mask一些token，n_pred变量代表的是即将mask的token数量，cand_maked_pos代表的是有哪些位置是候选的、可以mask的（因为像[SEP]，[CLS]这些不能做mask，没有意义），最后shuffle()一下，然后根据random()的值选择是替换为[MASK]还是替换为其它的token

接下来会做两个Zero Padding，第一个是为了补齐句子的长度，使得一个batch中的句子都是相同长度。第二个是为了补齐mask的数量，因为不同句子长度，会导致不同数量的单词进行mask，我们需要保证同一个batch中，mask的数量（必须）是相同的，所以也需要在后面补一些没有意义的东西，比方说[0]

以上就是整个数据预处理的部分

模型构建

模型结构主要采用了Transformer的Encoder，所以这里我不再多赘述，可以直接看我的这篇文章Transformer的PyTorch实现，以及B站视频讲解

def get_attn_pad_mask(seq_q, seq_k):
    batch_size, seq_len = seq_q.size()
    # eq(zero) is PAD token
    pad_attn_mask = seq_q.data.eq(0).unsqueeze(1)  # [batch_size, 1, seq_len]
    return pad_attn_mask.expand(batch_size, seq_len, seq_len)  # [batch_size, seq_len, seq_len]

def gelu(x):
    """
      Implementation of the gelu activation function.
      For information: OpenAI GPT's gelu is slightly different (and gives slightly different results):
      0.5 * x * (1 + torch.tanh(math.sqrt(2 / math.pi) * (x + 0.044715 * torch.pow(x, 3))))
      Also see https://arxiv.org/abs/1606.08415
    """
    return x * 0.5 * (1.0 + torch.erf(x / math.sqrt(2.0)))

class Embedding(nn.Module):
    def __init__(self):
        super(Embedding, self).__init__()
        self.tok_embed = nn.Embedding(vocab_size, d_model)  # token embedding
        self.pos_embed = nn.Embedding(maxlen, d_model)  # position embedding
        self.seg_embed = nn.Embedding(n_segments, d_model)  # segment(token type) embedding
        self.norm = nn.LayerNorm(d_model)

    def forward(self, x, seg):
        seq_len = x.size(1)
        pos = torch.arange(seq_len, dtype=torch.long)
        pos = pos.unsqueeze(0).expand_as(x)  # [seq_len] -> [batch_size, seq_len]
        embedding = self.tok_embed(x) + self.pos_embed(pos) + self.seg_embed(seg)
        return self.norm(embedding)

class ScaledDotProductAttention(nn.Module):
    def __init__(self):
        super(ScaledDotProductAttention, self).__init__()

    def forward(self, Q, K, V, attn_mask):
        scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k) # scores : [batch_size, n_heads, seq_len, seq_len]
        scores.masked_fill_(attn_mask, -1e9) # Fills elements of self tensor with value where mask is one.
        attn = nn.Softmax(dim=-1)(scores)
        context = torch.matmul(attn, V)
        return context

class MultiHeadAttention(nn.Module):
    def __init__(self):
        super(MultiHeadAttention, self).__init__()
        self.W_Q = nn.Linear(d_model, d_k * n_heads)
        self.W_K = nn.Linear(d_model, d_k * n_heads)
        self.W_V = nn.Linear(d_model, d_v * n_heads)
    def forward(self, Q, K, V, attn_mask):
        # q: [batch_size, seq_len, d_model], k: [batch_size, seq_len, d_model], v: [batch_size, seq_len, d_model]
        residual, batch_size = Q, Q.size(0)
        # (B, S, D) -proj-> (B, S, D) -split-> (B, S, H, W) -trans-> (B, H, S, W)
        q_s = self.W_Q(Q).view(batch_size, -1, n_heads, d_k).transpose(1,2)  # q_s: [batch_size, n_heads, seq_len, d_k]
        k_s = self.W_K(K).view(batch_size, -1, n_heads, d_k).transpose(1,2)  # k_s: [batch_size, n_heads, seq_len, d_k]
        v_s = self.W_V(V).view(batch_size, -1, n_heads, d_v).transpose(1,2)  # v_s: [batch_size, n_heads, seq_len, d_v]

        attn_mask = attn_mask.unsqueeze(1).repeat(1, n_heads, 1, 1) # attn_mask : [batch_size, n_heads, seq_len, seq_len]

        # context: [batch_size, n_heads, seq_len, d_v], attn: [batch_size, n_heads, seq_len, seq_len]
        context = ScaledDotProductAttention()(q_s, k_s, v_s, attn_mask)
        context = context.transpose(1, 2).contiguous().view(batch_size, -1, n_heads * d_v) # context: [batch_size, seq_len, n_heads * d_v]
        output = nn.Linear(n_heads * d_v, d_model)(context)
        return nn.LayerNorm(d_model)(output + residual) # output: [batch_size, seq_len, d_model]

class PoswiseFeedForwardNet(nn.Module):
    def __init__(self):
        super(PoswiseFeedForwardNet, self).__init__()
        self.fc1 = nn.Linear(d_model, d_ff)
        self.fc2 = nn.Linear(d_ff, d_model)

    def forward(self, x):
        # (batch_size, seq_len, d_model) -> (batch_size, seq_len, d_ff) -> (batch_size, seq_len, d_model)
        return self.fc2(gelu(self.fc1(x)))

class EncoderLayer(nn.Module):
    def __init__(self):
        super(EncoderLayer, self).__init__()
        self.enc_self_attn = MultiHeadAttention()
        self.pos_ffn = PoswiseFeedForwardNet()

    def forward(self, enc_inputs, enc_self_attn_mask):
        enc_outputs = self.enc_self_attn(enc_inputs, enc_inputs, enc_inputs, enc_self_attn_mask) # enc_inputs to same Q,K,V
        enc_outputs = self.pos_ffn(enc_outputs) # enc_outputs: [batch_size, seq_len, d_model]
        return enc_outputs

class BERT(nn.Module):
    def __init__(self):
        super(BERT, self).__init__()
        self.embedding = Embedding()
        self.layers = nn.ModuleList([EncoderLayer() for _ in range(n_layers)])
        self.fc = nn.Sequential(
            nn.Linear(d_model, d_model),
            nn.Dropout(0.5),
            nn.Tanh(),
        )
        self.classifier = nn.Linear(d_model, 2)
        self.linear = nn.Linear(d_model, d_model)
        self.activ2 = gelu
        # fc2 is shared with embedding layer
        embed_weight = self.embedding.tok_embed.weight
        self.fc2 = nn.Linear(d_model, vocab_size, bias=False)
        self.fc2.weight = embed_weight

    def forward(self, input_ids, segment_ids, masked_pos):
        output = self.embedding(input_ids, segment_ids) # [bach_size, seq_len, d_model]
        enc_self_attn_mask = get_attn_pad_mask(input_ids, input_ids) # [batch_size, maxlen, maxlen]
        for layer in self.layers:
            # output: [batch_size, max_len, d_model]
            output = layer(output, enc_self_attn_mask)
        # it will be decided by first token(CLS)
        h_pooled = self.fc(output[:, 0]) # [batch_size, d_model]
        logits_clsf = self.classifier(h_pooled) # [batch_size, 2] predict isNext

        masked_pos = masked_pos[:, :, None].expand(-1, -1, d_model) # [batch_size, max_pred, d_model]
        h_masked = torch.gather(output, 1, masked_pos) # masking position [batch_size, max_pred, d_model]
        h_masked = self.activ2(self.linear(h_masked)) # [batch_size, max_pred, d_model]
        logits_lm = self.fc2(h_masked) # [batch_size, max_pred, vocab_size]
        return logits_lm, logits_clsf
model = BERT()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adadelta(model.parameters(), lr=0.001)

这段代码中用到了一个激活函数gelu，这是BERT论文中提出来的，具体公式可以看这篇文章GELU激活函数

这段代码有一个特别不好理解的地方，就是到数第7行的代码，用到了torch.gather()函数，这里我稍微讲一下。这个函数实际上实现了以下的功能

out = torch.gather(input, dim, index)
# out[i][j][k] = input[index[i][j][k]][j][k] # dim=0
# out[i][j][k] = input[i][index[i][j][k]][k] # dim=1
# out[i][j][k] = input[i][j][index[i][j][k]] # dim=2

具体以一个例子来说就是，首先我生成index变量

index = torch.from_numpy(np.array([[1, 2, 0], [2, 0, 1]])).type(torch.LongTensor)
index = index[:, :, None].expand(-1, -1, 10)
print(index)
'''
tensor([[[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
         [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
         [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]],

        [[2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
         [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
         [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]])
'''

然后随机生成一个[2, 3, 10]维的tensor，可以理解为有2个batch，每个batch有3句话，每句话由10个词构成，只不过这里的词不是以正整数（索引）的形式出现，而是连续的数值

input = torch.rand(2, 3, 10)
print(input)
'''
tensor([[[0.7912, 0.7098, 0.7548, 0.8627, 0.1966, 0.6327, 0.6629, 0.8158,
          0.7094, 0.1476],
         [0.0774, 0.6794, 0.0030, 0.1855, 0.7391, 0.0641, 0.2950, 0.9734,
          0.7018, 0.3370],
         [0.2190, 0.3976, 0.0112, 0.5581, 0.1329, 0.2154, 0.6277, 0.0850,
          0.4446, 0.5158]],

        [[0.4145, 0.8486, 0.9515, 0.3826, 0.6641, 0.5192, 0.2311, 0.6960,
          0.4215, 0.5597],
         [0.0221, 0.5232, 0.3971, 0.8972, 0.2772, 0.5046, 0.1881, 0.9044,
          0.6925, 0.9837],
         [0.6797, 0.5538, 0.8139, 0.1199, 0.0095, 0.4940, 0.7814, 0.1484,
          0.0200, 0.7489]]])
'''

之后调用torch.gather(input, 1, index)函数

print(torch.gather(input, 1, index))
'''
tensor([[[0.0774, 0.6794, 0.0030, 0.1855, 0.7391, 0.0641, 0.2950, 0.9734,
          0.7018, 0.3370],
         [0.2190, 0.3976, 0.0112, 0.5581, 0.1329, 0.2154, 0.6277, 0.0850,
          0.4446, 0.5158],
         [0.7912, 0.7098, 0.7548, 0.8627, 0.1966, 0.6327, 0.6629, 0.8158,
          0.7094, 0.1476]],

        [[0.6797, 0.5538, 0.8139, 0.1199, 0.0095, 0.4940, 0.7814, 0.1484,
          0.0200, 0.7489],
         [0.4145, 0.8486, 0.9515, 0.3826, 0.6641, 0.5192, 0.2311, 0.6960,
          0.4215, 0.5597],
         [0.0221, 0.5232, 0.3971, 0.8972, 0.2772, 0.5046, 0.1881, 0.9044,
          0.6925, 0.9837]]])
'''

index中第一行的tensor会作用于input的第一个batch，具体来说，原本三句话的顺序是[0, 1, 2]，现在会根据[1, 2, 0]调换顺序。index中第2行的tensor会作用于input的第二个batch，具体来说，原本三句话的顺序是[0, 1, 2]，现在会根据[2, 0, 1]调换顺序

训练&测试

以下是训练代码

for epoch in range(180):
    for input_ids, segment_ids, masked_tokens, masked_pos, isNext in loader:
      logits_lm, logits_clsf = model(input_ids, segment_ids, masked_pos)
      loss_lm = criterion(logits_lm.view(-1, vocab_size), masked_tokens.view(-1)) # for masked LM
      loss_lm = (loss_lm.float()).mean()
      loss_clsf = criterion(logits_clsf, isNext) # for sentence classification
      loss = loss_lm + loss_clsf
      if (epoch + 1) % 10 == 0:
          print('Epoch:', '%04d' % (epoch + 1), 'loss =', '{:.6f}'.format(loss))
      optimizer.zero_grad()
      loss.backward()
      optimizer.step()

以下是测试代码

# Predict mask tokens ans isNext
input_ids, segment_ids, masked_tokens, masked_pos, isNext = batch[0]
print(text)
print([idx2word[w] for w in input_ids if idx2word[w] != '[PAD]'])

logits_lm, logits_clsf = model(torch.LongTensor([input_ids]), \
                 torch.LongTensor([segment_ids]), torch.LongTensor([masked_pos]))
logits_lm = logits_lm.data.max(2)[1][0].data.numpy()
print('masked tokens list : ',[pos for pos in masked_tokens if pos != 0])
print('predict masked tokens list : ',[pos for pos in logits_lm if pos != 0])

logits_clsf = logits_clsf.data.max(1)[1].data.numpy()[0]
print('isNext : ', True if isNext else False)
print('predict isNext : ',True if logits_clsf else False)

最后给出完整代码链接（需要科学的力量）
Github 项目地址：nlp-tutorial

68 Comments

ChanggengWei


September 14, 2020

感谢up主的无私分享，我是从你的seq2seq，transformer一路看到bert的，非常感谢你的详细分析，另外我写一下我对文中几处的理解。
在BERT的forward中
masked_pos = masked_pos[:, :, None].expand(-1, -1, d_model)
h_masked = torch.gather(output, 1, masked_pos)
两行代码的注释中，个人觉得masked_pos和h_masked的维度应该为 [batch_size, max_pred, d_model]，后面的logits_lm维度应该为[batch_size, max_pred, d_model]
另外说说我对torch.gather(input, 1, index)的理解，个人觉得，这个函数的作用是按index抽取input里的元素，比如index为[4,,6,10]的话，返回的是input中索引为4,6,10的元素。基于我个人的理解，BERT的encoder最后抽取的是所有词的信息，维度为[batch_size, maxlen, d_mdel]，其中有max_pred个词被mask，然后拿gather函数抽取被mask的预测值[batch, max_pred, d_model]来做损失计算。
以上纯属个人理解，不吝赐教！
1. lxt
  
  
  September 21, 2020
  
  @ChanggengWei我觉得你说的对
2. mathor
  
  
  September 21, 2020
  
  @ChanggengWei感谢您的指正，我思考了下您说的是对的
  我已修改文章和代码，再次感谢
  ps：最近一段时间太多人给我提各种各样的问题，没第一时间回复您，不好意思
3. TYZY8999
  
  
  August 21, 2022
  
  @ChanggengWei感谢分享，很准确！
鸭鸭


September 21, 2020

博主，文章里好像漏了制作DataLoader的部分？
1. mathor
  
  
  September 21, 2020
  
  @鸭鸭感谢提醒，已经补上了
  ps：建议您下次评论的时候填一下邮箱，这样可以及时收到我给您的回复
2. 鸭鸭
  
  
  September 22, 2020
  
  @mathor好的，谢谢博主
Kevin


November 19, 2020

feedforward 这部分是bert源代码就没有 Add & Norm 这部分吗因为我看transformer encoder里好像就有
1. mathor
  
  
  November 19, 2020
  
  @Kevin你想加的话可以加，这些都是小细节，没有那么重要啦
waiting涙


November 19, 2020

请问大佬模型代码里 self.fc2.weight = embed_weight 的意义是什么呢，如果不进行这个embedding的参数共享后果会如何？
1. mathor
  
  
  November 19, 2020
  
  @waiting涙就是单纯字面意义，不共享参数也是可以的，随意
2. waiting涙
  
  
  November 19, 2020
  
  @mathor感谢博主解答@(哈哈)
尘世猫


February 25, 2021

请问bert中，最后这段代码什么意思呢
embed_weight = self.embedding.tok_embed.weight
self.fc2 = nn.Linear(d_model, vocab_size, bias=False)
self.fc2.weight = embed_weight
1. mathor
  
  
  February 26, 2021
  
  @尘世猫权重共享罢了，不这么写也可以
2. yulin
  
  
  March 29, 2022
  
  @尘世猫我的理解，一是可以减少网络的参数，二是这么做的本意是计算预测的token的向量与vocabulary embedding中各个向量之间的相似度，只不过借用了nn.Linear()这个壳子来实现而已。
TZZHH


March 17, 2021

您好，想请问一下运行训练部分的时候会报错如下：
----> 8 logits_lm, logits_clsf = model(input_ids, segment_ids, masked_pos)
E:ANACONDAenvspytorchlibsite-packagestorchnnmodulesmodule.py in _call_impl(self, input, *kwargs)
--> 889 result = self.forward(input, *kwargs)
<ipython-input-23-055b6dc2b658> in forward(self, input_ids, segment_ids, masked_pos)
--> 106 enc_self_attn_mask = get_attn_pad_mask(input_ids, input_ids)
<ipython-input-23-055b6dc2b658> in get_attn_pad_mask(seq_q, seq_k)
----> 5 pad_attn_mask = seq_len.data.eq(0).unsqueeze(1)
AttributeError: 'int' object has no attribute 'data'
但是在transformer部分相同的get_attn_pad_mask却没有错，请问是为什么呀，看了好久也没有解决
1. wesley
  
  
  March 22, 2021
  
  @TZZHH换成 pad_attn_mask = seq_q.data.eq(0).unsqueeze(1)
  seq_q !!!
2. mathor
  
  
  March 22, 2021
  
  @wesley感谢提醒，我也没发现文章中写错了，已修改
3. TZZHH
  
  
  March 23, 2021
  
  @wesley感谢感谢
manba


March 18, 2021

请问以下，在输入数据的时候一般不是第一个维度表示batch_size大小吗？博主这里是重新设置了第一个表示batch_size大小吗，还有一个问题，如果我用pytorch中的transformerEncoder和你这里实现的相比的话，我可不可以直接就用这个代替你写的transformerEncoder这一部分啊？
星隐


March 26, 2021

谢谢博主的精彩解析！我有一个小问题在于，损失函数criterion = nn.CrossEntropyLoss()中似乎对于MLM任务的损失没有添加ignore_index 参数，导致填充词也参与了损失函数计算。而对于句子预测任务，又无法使用ignore_index = 1。是否应该采用两个损失函数进行计算呢？@(乖)
1. mathor
  
  
  March 26, 2021
  
  @星隐你说的貌似有点道理
123


April 20, 2021

请问经过预训练的BERT和没有经过预训练的最后效果差别大吗
1. mathor
  
  
  April 20, 2021
  
  @123非常大，经过预训练的效果会非常好
Ziyi Cui


April 25, 2021

代码看起来极度舒适感恩！@(爱心)
Ziyi Cui


April 29, 2021

有个疑问请教一下。我想通过bert学到embedding并用到下游任务，但是在bert的forward里 dim=1是max_pred而不是sentence的长度。那么这种情况，在预训练结束后，该如何转化成sentence的长度,并用于我的下游任务呢
1. mathor
  
  
  April 29, 2021
  
  @Ziyi Cui那你可以在Model里定义一个inference方法（方法名无所谓，随便起），然后在训练结束后，也就是测试阶段，调用model.inference()去进行测试，而不是直接用model()去测试
椒麻鸡吧


May 31, 2021

博主你好，我想请教一下，如果使用bert训练的encoder去做预测，是直接使用embedding去预测，还是将未来时刻全部mask再去encoder最后预测？
1. mathor
  
  
  May 31, 2021
  
  @椒麻鸡吧你要预测什么呢？如果是简单的分类问题，应该是将BERT第12层的输出送入nn.Linear()做预测
2. 椒麻鸡吧
  
  
  May 31, 2021
  
  @mathor好的，谢谢回复。
  但是不是那样对整个序列的分类。
  我的预测问题是类似下棋这样的每个时间步上的特征是在集合里面选择的序列预测，也是分类问题
小李


July 13, 2021

您好请问为啥没有用到transformer实现里的decoder，如果加入decoder的话，在您的算法实现中，输入应该是什么呢？
1. mathor
  
  
  July 13, 2021
  
  @小李因为BERT就是Transformer的Encoder部分啊。。。。。
2. 小李
  
  
  July 13, 2021
  
  @mathor谢谢回复，原来如此：）
宇航员


August 20, 2021

反复看，点滴进步，感谢分享。
learning_NLP


August 24, 2021

博主，bert是12层的transformer的Encoder，代码中为什么只写了6层？
1. mathor
  
  
  August 25, 2021
  
  @learning_NLP首先，bert分base，large等各种版本，不同版本的层数不一样
  其次，如果你想写成12层的稍微修改即可，这有什么重要的，何必在意这么多
2. learning_NLP
  
  
  August 27, 2021
  
  @mathor明白了，谢谢博主
芝麻狼


August 27, 2021

position embedding的sincos计算是不是没有体现？
1. mathor
  
  
  August 27, 2021
  
  @芝麻狼transformer里是按照sin cos公式计算的；BERT等以后的一系列模型都直接采用nn.Embedding()的方法
芝麻狼


August 27, 2021

也许这两行有一个小问题？
1、loss_lm = criterion(logits_lm.view(-1, vocab_size), masked_tokens.view(-1))
2、loss_lm = (loss_lm.float()).mean()
第1句中已经view成-1了，那就是把batch“合并”计算loss了，那第2行的mean其实就是除以1（loss_lm的值是没变的，所以第2句是多余的）。
是不是应该改为loss_lm = loss_lm.float()/batch_size才算均摊在每个batch上的loss？
ha'ha'ha


August 27, 2021

想问下博主，数据预处理的36，37行这里：
masked_tokens.extend([0] * n_pad)
masked_pos.extend([0] * n_pad)
masked_tokens 补充的0是[PAD]的数字表示，可是masked_pos 补充的0是输入数据的第一个单词[CLS]的索引，是不是有点问题啊？
1. kuntl
  
  
  November 29, 2021
  
  @ha'ha'ha同问，求解答@(小乖)
2. yulin
  
  
  March 29, 2022
  
  @ha'ha'ha是的，感觉不合理。而且make_data()函数的第31行，segment_ids后面append 0这个操作也是很迷，0这个segment id应该属于第一个句子里面的token。
beer


September 12, 2021

博主，训练的时候为什么loss_lm要先float()，然后再取mean()啊？
1. yulin
  
  
  March 29, 2022
  
  @beer答案是，你不这么做也是可以的，没有影响。
芝麻狼


September 22, 2021

masked_tokens.extend([0] * n_pad)引入了[0]来补齐mask的token数（这些补齐的token不应该在求loss时被考虑）。
但训练中loss_lm = criterion(logits_lm.view(-1, vocab_size), masked_tokens.view(-1))这句是不是把这些不应该考虑的token也一同考虑进loss了？
1. 芝麻狗头哥
  
  
  October 6, 2021
  
  @芝麻狼我也觉得这里可能有点问题，上面也有个人说两个loss分开算
2. 芝麻狗头哥
  
  
  October 6, 2021
  
  @芝麻狗头哥还有mlm的loss那里已经是一个数了，应该就不需要float().mean()了吧
3. 芝麻狼
  
  
  October 8, 2021
  
  @芝麻狗头哥嗯嗯，赞同。我也觉得这个MLM loss有些问题，以及.float()就行不用.mean()了。
scirocc


October 11, 2021

up您好，想请教您三个问题：
1 预训连语料中，是否应把逗号视作[SEP]?
2 假设我们bert的max_len为3,那么假设这时候我们有两句话：“我爱你，你是否爱我”，那么这句话我们是否只能放入“我爱你”就结束了，可如果是这样，那么bert还怎么进行next sentence prediction？
3 假如我们有一个三句话的语料，“我爱你，你也爱我，那我们在一起吧”。是否应该这样输入进bert？
data1： [cls] 我爱你 [sep] 你也爱我 [sep] data2： [cls] 你也爱我 [sep] 那我们一起吧 [sep]
期待您的回复
1. scirocc
  
  
  October 11, 2021
  
  @scirocc由问题2引发的，假设把我们 bert 的 max_len 改为 6, 那么假设这时候我们有两句话：“我爱你，你是否爱我”，那么这句话我们是否只能放入 “我爱你，你是否” 就结束了
sam_rit


October 12, 2021

博主，如何转到gpu上训练，我将模型和数据都.to(device)了，还是报错，应该是模型上了gpu，数据没上去。此外，第四段代码的36行应该补的是1吧，您再看下。
scirocc


October 18, 2021

还有在MLM任务中，
# fc2 is shared with embedding layer embed_weight = self.embedding.tok_embed.weight self.fc2 = nn.Linear(d_model, vocab_size, bias=False) self.fc2.weight = embed_weight
tok_embed 的shape是vocab，embDim，而fc2是embDim，vocab，您这样赋值（self.fc2.weight = embed_weight），fc2的shape不就改变了吗
小宋


October 26, 2021

博主，为啥对句子进行padding时，不考虑句子长度大于max_len的情况？难道只因为数据都小于max_len，所以不考虑？
1. mathor
  
  
  October 26, 2021
  
  @小宋大于max_len的都被截断了
2. 小宋
  
  
  October 26, 2021
  
  @mathor可是我没有看到你在哪里写了截断的代码呀QAQ
3. mathor
  
  
  October 26, 2021
  
  @小宋这个数据是我随便造的，一个demo
可可


November 3, 2021

博主，如果想预训练这个模型，应该怎么弄,并且我想，如果分词可以用WordPiece，会不会更好一点尼
Zh


November 29, 2021

这个mask矩阵应该漏了最后几行的掩盖把
人字拖


December 30, 2021

感谢up主的分享，这篇文章是我看过比较好接受和理解的了，其他对于我这小白来说简直是天书@(泪)。请教几个问题，假设现在有1万条纯文本（样本少，一条文本比较短，类似搜索关键字，涉及一些领域术语，比如“进击的巨人”是一场动漫），想通过nlp给它们打标签。问题1是，这情形该应用nlp的什么模型来做比较好？问题2是，样本量少，如果拆分成训练、验证、测试集，效果不太好，这个能怎么解决？问题3是，标签可以由模型通过学习来定义么，还是我们人工自行定义，更好的是网上有没通用的内容标签体系？谢谢up主@(太开心)@(太开心)
nlp新手


January 10, 2022

您好！我在GPU上运行这个代码的时候，将model和input_ids, segment_ids, masked_tokens, masked_pos, isNext 全部放在gpu上了，我打印出来之后，全是在cuda:0上面，但是仍然报错:
Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu! (when checking argument for argument index in method wrapper__index_select),请问这是为啥呀？
1. L
  
  
  May 13, 2022
  
  @nlp新手有没有尝试过model里面也放到cuda上面
4amgodvv


August 1, 2022

老师给我分的文本摘要方向打算使用LCSTS数据集我的想法是用一个包对LCSTS分词再将分词后的数据输入到BERT模型中训练向大佬提供的代码里面的text 是英文的那中文的怎么处理
@(呵呵)
sjsbj


August 25, 2022

n n s ns变得简单点吧
myaijarvis


September 26, 2022

up你好，我试了一下 criterion = nn.CrossEntropyLoss() # 这里不能加ignore_index=0，加了预测反而效果很差。
但前面数据处理的时候两次Zero Paddings都是用0补齐，我这里计算loss的时候忽略0为啥预测结果反而变差了，训练的loss是下降的
从oo


September 27, 2022

留@(哈哈)
隔壁小小王


May 8, 2023

博主请教下，transformer里面的Tokenizer和你文章中的准备数据集这一部分代码其实是实现了一样的功能
Fliatte


6 Months Ago

Hi, 博主，想请问一下这个BERT模型训练出来的loss怎么这么大呀，我看你colab里面的结果经过1000个epoch之后loss还是有0.7左右