Virtual Data Augmentation: 虚拟数据扩增技术

听说过数据扩增（Data Augmentation），也听说过虚拟对抗训练（Virtual Adversarial Traning），但是我没想到会有人将其结合，谓之虚拟数据扩增（Virtual Data Augmentation）。这篇文章主要讲解 EMNLP2021 上的一篇论文 Virtual Data Augmentation: A Robust and General Framework for Fine-tuning Pre-trained Models，该论文提出了一种鲁棒且通用的数据扩增方法，论文源码在 https://github.com/RUCAIBox/VDA

论文开篇提到目前数据扩增存在的主要问题：产生数据多样性的同时如何保证其仍然在同一个语义空间中？简单地说，增强数据扩增的多样性很容易，核心就一个字："乱"，例如许多数据扩增方法会随机打乱一个句子中 token 的位置，或者是随机删除某些 token，随机插入某些 token。这样虽然增强了样本的多样性，但是语义可能也会产生非常大的变化，甚至不再与原样本的语义相同。保持语义不变，或者说保证扩增后的样本和原样本在同一个语义空间中很容易，核心就是："不要太乱"，例如通过同义词替换等，这种方法可以做到几乎不改变语义，但是数据多样性却不够，因为本质上还是同一句话

这两个需求实际上是矛盾的，我们所能做的只是尽力达到某种平衡。具体来说，作者所提出的方法包含两个重要部分：Embedding Augmentation 以及 Regularized Training

Embedding Augmentation

假设现在我们有句子「Time is enough for test」，对于每个位置的 token，我们都可以将其替换为 [MASK]，然后通过 MLM 预测 Vocabulary 中所有 token 在该位置的概率，例如

[MASK] is enough for test

[MASK] 位置输出的 token 及其概率为

Time  p=0.5
Day   p=0.3
Hours p=0.15
...

再比如

Times is enough for [MASK]

[MASK] 位置输出的 token 及其概率为

test       p=0.5
evaluation p=0.3
experiment p=0.1
...

看到这里大家脑海中可能已经有了一个数据扩增的想法，就是利用 MLM 任务对句子中每个位置的 token 进行预测，然后根据预测概率随机挑选出一个 token 进行替换，例如上面的句子可能就会被替换为「Hours is enough for evaluation」。这确实是一种还不错的数据扩增方法，但是论文作者却并不是这么做的

为了描述简单，我们仅讨论对于给定句子 $S$ 中的一个 token $\tilde {w}$ 进行扩增的情况（实际上句子 $S$ 中的所有 token 都会进行该操作），通过 MLM 任务我们可以预测出 Vocabulary 中所有单词在 $\tilde {w}$ 位置的概率

$$ \{p(\hat{w}_1\mid S),...,p(\hat{w}_V\mid S)\}\tag{1} $$

其中，$V$ 是 Vocabulary 中的 token 数量

为了增强数据扩增的多样性，或者说引入某些噪声以增强抗干扰性，我们从高斯分布中随机采样出一个向量

$$ \epsilon \sim \mathcal{N}(0, \sigma^2)\tag{2} $$

将该向量与公式 (1) 的概率分布进行混合，我们可以得到一个新的概率分布

$$ p'(\hat{w}_i\mid S) = \text{Softmax}(p(\hat{w}_i\mid S) + \epsilon)\tag{3} $$

然后对于每个即将被替换的 token $\tilde {w}$，我们根据概率 $p'(\hat {w}_i\mid S)$ 加权融合所有 token $\hat {w}_i$ 的 Embedding 向量

$$ \hat{\mathbf{e}}_{\tilde{w}}=\mathbf{p}_{\tilde{w}}\cdot\mathbf{M}_E\tag{4} $$

其中，$\mathbf {p}_{\tilde {w}}=\{p'(\hat {w}_i\mid S)\}_{i=1}^V$，$\mathbf {M}_E\in \mathbb {R}^{V\times d}$ 是 MLM 模型的词向量矩阵

举个简单的例子解释一下，为了方便，同样还是以替换一个 token 为例，并且整个 Vocabulary 只有 4 个 token，词向量的维度为 2。首先我们有一句话「She is a good student」，将「good」进行 MASK，然后通过 MLM 模型，预测出概率分布为

$$ p(\hat{w}_i\mid S)=[0.5, 0.1, 0.1, 0.3] $$

从左到右分别是 good, perfect, excellent, smart 的概率，根据高斯分布 $\mathcal {N}(0, \sigma^2)$ 随机产生的向量为

$$ \epsilon = [-0.1, 0.1, 0.1, -0.1] $$

这里我并没有具体指明方差 $\sigma^2$ 到底是多少，因为我懒得算

将 $p (\hat {w}_i\mid S)$ 与 $\epsilon$ 混合后进行 Softmax 得到新的概率分布为

$$ p'(\hat{w}_i\mid S) = [0.4, 0.2, 0.2, 0.2] $$

假设 Embedding 矩阵为

$$ \mathbf{M}_E = \begin{bmatrix}0.2,0.3\\0.1,0.5\\0.4,0.2\\0.1,0.4\end{bmatrix} $$

那么最终「good」这个位置对应的 embedding 为

$$ \begin{aligned} \hat{\mathbf{e}}_{\tilde{w}} &= p'(\hat{w}_i\mid S) \cdot \mathbf{M}_E\\ &=\begin{bmatrix}0.4\\0.2\\0.2\\0.2\end{bmatrix}^T\cdot \begin{bmatrix}0.2,0.3\\0.1,0.5\\0.4,0.2\\0.1,0.4\end{bmatrix}\\ &= \begin{bmatrix}0.2, 0.34\end{bmatrix} \end{aligned} $$

到此为止，不知道大家有没有体会到什么叫「Virtual Data Augmentation」，Virtual 本质上就是不用一个真实的 token 去替换，而是使用一个 embedding 去替换，而如果你用这个 embedding 去反查 $\mathbf {M}_E$ 矩阵一般是找不到对应的索引的，也就是说我们生成的这个 embedding 并不对应一个实际存在的 token

Regularized Traning

标题起的很有故事，但本质上就是多引入了一个损失函数，具体来说，现在我们的优化目标为

$$ \underset{\theta}{\arg \min } \sum_{i=1}^{n} \mathcal{L}_{c}\left(f\left(x_{i}\right), y_{i}\right)+\lambda \sum_{j=1}^{k} \mathcal{L}_{\mathrm{reg}}\left(f\left(x_{i}\right), f\left(\hat{x}_{j}\right)\right)\tag{5} $$

其中 $f$ 表示含有参数 $\theta$ 的预训练模型，$n$ 为样本个数，$k$ 表示由一条句子扩增出了 $k$ 条句子。具体来说，如果是分类任务，则

$$ \mathcal{L}_c(\theta) = \frac{1}{n}\sum_{i=1}^n \text{CE}(f(\mathbf{E}_i;\theta), y_i)\tag{6} $$

其中，$\text {CE}(\cdot ,\cdot)$ 是 Cross-Entropy Loss，可以根据具体任务替换的，$\mathbf {E}_i$ 表示第 $i$ 条句子通过 Word2Vec 之后生成的向量，其维度为 [seq_len, emd_dim]

为了防止扩增后的样本与原始样本间的语义产生巨大差距，换句话说，我们希望扩增后的样本与原样本间的分布是接近的，因此论文引入了 KL 散度作为第二项损失

$$ \mathcal{L}_{\text{reg}}(\theta)=\frac{1}{k}\sum_{i=1}^k D_{sKL}(f(\mathbf{E}_i;\theta), f(\hat{\mathbf{E}}_i;\theta))\tag{7} $$

其中，$k$ 指的是原样本扩增出了 $k$ 个样本，$D_{sKL}$ 是对称的 KL 散度，具体来说

$$ D_{sKL}(p, q) = \frac{D_{KL}(p, q) + D_{KL}(q, p)}{2}\tag{8} $$

实际上这种方法可以看作是多任务，我们希望模型参数训练到一种境界，这种境界是，不论模型对原样本进行下游任务，还是让模型判断原样本与扩增样本的差距，模型都能做的很好。最后给出论文中的一张图结束这部分（图中一个样本扩增了 3 条样本）

Results

如果单看原始的准确率对比，似乎提升并不是很大，感觉我随便引入一些 trick 都能达到甚至超过 Virtual Data Augmentation 的效果。关键在于第二列「Att Acc」，这代表模型受到攻击时的结果，这部分的提升特别大，表明 VDA 这种方法确实有很强的抗干扰性，或者说鲁棒性很强

个人总结

实际上前面已经把这篇论文讲的很清楚了，这里没有什么好总结的，但我倒是有一点个人拙见想和大家讨论一下，因为他做 MLM 任务时，将整个 Vocabulary 都作为候选集，这样无论是对计算速度还是显存占用都不是很友好，我觉得可以将其改为取出概率最大的前 Top k 个 token，这个 k 可以取的稍微大一点，例如 200, 300 等，这样可以保证取到后面一些语义上不那么相近的 token 的同时，避免对整个 Vocabulary 进行运算，至少不会生成几万几十万那么夸张的概率分布