Sentence-BERT详解

简述

BERT 和 RoBERTa 在文本语义相似度（Semantic Textual Similarity）等句子对的回归任务上，已经达到了 SOTA 的结果。但是，它们都需要把两个句子同时送入网络，这样会导致巨大的计算开销：从 10000 个句子中找出最相似的句子对，大概需要 5000 万 ( $C_{10000}^2=49,995,000$ ) 个推理计算，在 V100GPU 上耗时约 65 个小时。这种结构使得 BERT 不适合语义相似度搜索，同样也不适合无监督任务，例如聚类

解决聚类和语义搜索的一种常见方法是将每个句子映射到一个向量空间，使得语义相似的句子很接近。通常获得句子向量的方法有两种：

计算所有 Token 输出向量的平均值
使用 [CLS] 位置输出的向量

然而，UKP 的研究员实验发现，在文本相似度（STS）任务上，使用上述两种方法得到的效果却并不好，即使是 Glove 向量也明显优于朴素的 BERT 句子 embeddings（见下图前三行）

Sentence-BERT(SBERT) 的作者对预训练的 BERT 进行修改：使用 Siamese and Triplet Network（孪生网络和三胞胎网络）生成具有语义的句子 Embedding 向量。语义相近的句子，其 Embedding 向量距离就比较近，从而可以使用余弦相似度、曼哈顿距离、欧氏距离等找出语义相似的句子。SBERT 在保证准确性的同时，可将上述提到 BERT/RoBERTa 的 65 小时降低到 5 秒（计算余弦相似度大概 0.01 秒）。这样 SBERT 可以完成某些新的特定任务，比如聚类、基于语义的信息检索等

模型介绍

Pooling 策略

SBERT 在 BERT/RoBERTa 的输出结果上增加了一个 Pooling 操作，从而生成一个固定维度的句子 Embedding。实验中采取了三种 Pooling 策略做对比：

CLS：直接用 CLS 位置的输出向量作为整个句子向量
MEAN：计算所有 Token 输出向量的平均值作为整个句子向量
MAX：取出所有 Token 输出向量各个维度的最大值作为整个句子向量

三种策略的实验对比效果如下

由结果可见，MEAN 的效果是最好的，所以后面实验默认采用的也是 MEAN 策略

模型结构

为了能够 fine-tune BERT/RoBERTa，文章采用了孪生网络和三胞胎网络来更新参数，以达到生成的句子向量更具语义信息。该网络结构取决于具体的训练数据，文中实验了下面几种机构和目标函数

Classification Objective Function

针对分类问题，作者将向量 $u,v,|u-v|$ 三个向量拼接在一起，然后乘以一个权重参数 $W_t\in \mathbb {R}^{3n\times k}$ ，其中 $n$ 表示向量的维度， $k$ 表示 label 的数量

$o = \text{Softmax}(W_t[u;v;|u-v|])$

损失函数为 CrossEntropyLoss

注：原文公式为 $\text {Softmax}(W_t (u,v,|u-v|))$ ，我个人比较喜欢用 $[;;]$ 表示向量拼接的意思

Regression Objective Function

两个句子 embedding 向量 $u,v$ 的余弦相似度计算结构如下所示，损失函数为 MAE（mean squared error）

Triplet Objective Function

更多关于 Triplet Network 的内容可以看我的这篇 Siamese Network & Triplet NetWork。给定一个主句 $a$ ，一个正面句子 $p$ 和一个负面句子 $n$ ，三元组损失调整网络，使得 $a$ 和 $p$ 之间的距离尽可能小， $a$ 和 $n$ 之间的距离尽可能大。数学上，我们期望最小化以下损失函数：

$max(||s_a-s_p||-||s_a-s_n||+\epsilon, 0)$

其中， $s_x$ 表示句子 $x$ 的 embedding， $||・||$ 表示距离，边缘参数 $\epsilon$ 表示 $s_a$ 与 $s_p$ 的距离至少应比 $s_a$ 与 $s_n$ 的距离近 $\epsilon$ 。在实验中，使用欧式距离作为距离度量， $\epsilon$ 设置为 1

模型训练细节

作者训练时结合了 SNLI（Stanford Natural Language Inference）和 Multi-Genre NLI 两种数据集。SNLI 有 570,000 个人工标注的句子对，标签分别为矛盾，蕴含（eintailment），中立三种；MultiNLI 是 SNLI 的升级版，格式和标签都一样，有 430,000 个句子对，主要是一系列口语和书面语文本

蕴含关系描述的是两个文本之间的推理关系，其中一个文本作为前提（Premise），另一个文本作为假设（Hypothesis），如果根据前提能够推理得出假设，那么就说前提蕴含假设。参考样例如下：

Sentence A (Premise)	Sentence B (Hypothesis)	Label
A soccer game with multiple males playing.	Some men are playing a sport.	entailment
An older and younger man smiling.	Two men are smiling and laughing at the cats playing on the floor.	neutral
A man inspects the uniform of a figure in some East Asian country.	The man is sleeping.	contradiction

实验时，作者使用类别为 3 的 Softmax 分类目标函数对 SBERT 进行 fine-tune，batch_size=16，Adam 优化器，learning_rate=2e-5

消融研究

为了对 SBERT 的不同方面进行消融研究，以便更好地了解它们的相对重要性，我们在 SNLI 和 Multi-NLI 数据集上构建了分类模型，在 STS benchmark 数据集上构建了回归模型。在 pooling 策略上，对比了 MEAN、MAX、CLS 三种策略；在分类目标函数中，对比了不同的向量组合方式。结果如下

结果表明，Pooling 策略影响较小，向量组合策略影响较大，并且 $[u;v;|u-v|]$ 效果最好

Reference

取消回复

OωO

OωO
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
（╯‵□′）╯︵┴─┴
￣﹃￣
(/ω＼)
∠( ᐛ 」∠)＿
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ｀)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ(￣∇￣o)
ヾ(´･･｀｡)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò｡)
Σ(っ °Д °;)っ
( ,,´･ω･)ﾉ"(´っω･｀｡)
╮(╯▽╰)╭
o(*////▽////*)q
＞﹏＜
( ๑´•ω•) "(ㆆᴗㆆ)
(｡•ˇ‸ˇ•｡)

泡泡
阿鲁
颜文字

DO NOT Send me reply emails

15 Comments

实时


October 28, 2020

W (u,v,|u-v|) 的结果是什么样的矩阵？
1. mathor
  
  
  October 28, 2020
  
  @实时结果是 [batch_size, k]
2. 实时
  
  
  October 28, 2020
  
  @mathor 谢谢！
  https://pic3.zhimg.com/80/v2-0ee90dc783b0d2c1f28b40a084772906_720w.jpg
  比如图片中这个的 (Wt) (u,v,|u-v|) 的结果是什么样的矩阵？
  k 表示 label 的数量，这个数量是指什么数量？是数据集的 label 数量吗？
3. mathor
  
  
  October 28, 2020
  
  @实时对于分类问题，有几类，label 就是几，k 就是几
  你那个图应该有点问题，不要看那个图
4. mathor
  
  
  October 28, 2020
  
  @实时你那个图上，相乘之后的结果是 k*k 的矩阵
5. 实时
  
  
  October 28, 2020
  
  @mathor 谢谢！也就是变成 (u,v,|u-v|) (Wt 转置) 吗？
fengqingyang


November 2, 2020

有 Sentence-BERT 的代码吗，能分享一下吗？
1. mathor
  
  
  November 2, 2020
  
  @fengqingyang 你可以看下这里 https://github.com/UKPLab/sentence-transformers
2. fengqingyang
  
  
  November 2, 2020
  
  @mathor 多谢了，如果构造一个孪生网络，加载预训练好的 albert 模型在提取每一个句子的 Embedding，有没有合适的例子？
3. mathor
  
  
  November 2, 2020
  
  @fengqingyang 您可以上网找一下，实际上自己写的话感觉也并不难
4. fengqingyang
  
  
  November 2, 2020
  
  @mathor 好的，我先找找，理想的情况下，将 Sentence-BERT 能用 bert4keras 改造一下，这样在做句子对相似任务时效果会好的多。
卡罗特


May 28, 2021

有专门的中文预训练模型吗？
1. mathor
  
  
  May 28, 2021
  
  @卡罗特请查看我文章中的那个超链接，里面有所有的预训练模型，至于有无中文的，你看一下就知道了
娜娜


August 24, 2022

您好！
您的网站可能不可能接受客座帖子？
谢谢
1. mathor
  
  
  August 24, 2022
  
  @娜娜您好，何谓客座帖子？

Sentence-BERT 详解

October 13, 2020 • Read: 18089 • Deep Learning • 阅读设置

简述