RNN原理

现在考虑这样一个问题，给一句话，如何判断这句话的情感是积极的 (Positive) 还是消极的 (Negative)

例如下图中的一句话 "I hate this boring movie"，我们看一眼就知道这句话肯定是消极的，但是如何构建一个网络模型去识别呢？

有一种 naive 的方法，假设我们把这句话变成一个维度是 $(5, 100)$ 的 tensor，5 表示这句话里有 5 个词，100 表示每个词的维度是 100。然后对于将每个词 $x_i$ 作为输入，分别带入 5 个 Linear Layer，假设得到的输出 $y_i$，把这五个输出合在一起就是 $y$，它的维度是 $(5, 2)$。最后再接一个 Linear Layer，输出 $p$，它的维度是 $(1)$，这个值表示给出句子是 $x$ 的情况下，这个句子的情感是 Positive 的概率，即 $P (pos|x)$，就变成了一个二分类的问题

这只是一个 naive 的做法，这样做会存在很多问题。首先如果输入是一个很长的句子，那么这个句子里的单词就会很多，再加上每个单词对应还需要一段长度的词向量，整个参数量就会非常大；其次，这种做法没有考虑到上下文的信息，例如 "我不喜欢你" 这句话，如果你只分析 "喜欢"，你会以为这是一个积极的句子，但其实没有考虑到上文中的 "不" 字。再比如，一个人说：我喜欢旅游，其中最喜欢的地方是云南，以后有机会一定要去__。这里填空，是个正常人都知道填 "云南"。我们是根据上下文内容推断出来的，这就意味着，一句话不能单独一个单词一个单词来分析，所以我们希望能有一个 consistent tensor 来存储语境信息，并且在训练的时候能够将这个语境信息利用起来

对于第一个问题，如何解决参数量过大，我们可以参考 CNN，卷积神经网络中的每个 kernel 都利用的权重共享的思想，应用到我们这里就是，每个单词经过的 Linear Layer，其 $w$ 和 $b$，都是相同的，而不再是上面那张图的 $w_1$,$w_2$,...$b_1$,$b_2$,...，具体见下图

对于第二个问题，如何将语境信息也贯穿在整个网络训练的过程中？

看下图的网络结构，每一层的输出，都会作为下一层的一部分输入。例如将 "I" 的词向量 $x_1$ 和 $h_0$ 作为输入，输出得到 $h_1$，就，然后将 "hate" 这个词的词向量 $x_2$ 和 $h_1$ 作为输入，输出得到 $h_2$，如此循环下去。因此这种网络被称为循环神经网络（RNN）

下图是一个典型的 RNN 网络结构。右边可以理解为左边按照时间进行展开

假设 $x_{t-1},x_{t}$ 表示输入 "我" 和 "是"，$x_{t+1}$ 表示输入 "中国"，连起来输入就是 "我是中国"，那么 $O_{t-1},O_{t}$ 就应该对应 "是" 和 "中国"，预测下一个词最有可能是什么？就是预测 $O_{t+1}$ 最有可能是什么，应该是 "人" 的概率比较大

因此，我们可以做这样的定义：

$$ X_t: 表示 t 时刻的输入，O_t: 表示 t 时刻的输出，S_t: 表示 t 时刻的记忆 $$

因为我们当前时刻的输出是由记忆和当前时刻的输入共同决定的。就像你现在大四，你的知识是由大四学到的知识（当前输入）和大三以及大三以前学到的知识（记忆）的结合。RNN 在这点上也类似，神经网络最擅长做的就是通过一系列参数把很多内容整合到一起，然后学习这个参数，因此就定义了 RNN 的基础：

$$ S_t=f(U*x_t + W*S_{t-1}) $$

这里的 $f ()$ 函数表示激活函数，对于 CNN 来说，激活函数一般选取的都是 $ReLU$，但是 RNN 一般选用 $tanh$

假设你大四快毕业了，要参加考研，请问你参加考研是先记住学过的内容然后去考研，还是直接带几本书参加考研呢？答案很显然。RNN 的做法也就是预测的时候带着当前时刻的记忆 $S_t$ 去预测。假如你要预测 "我是中国" 的下一个词，运用 SoftMax 在合适不过了，但预测不能直接用一个矩阵去预测，要转为一个向量，所以最终的公式表示为：

$$ O_t = \text{Softmax}(V*S_t) $$

RNN 的结构细节：

可以把 $S_t$ 当作隐状态，捕捉了之前时间点上的信息。就像你去考研一样，考的时候记住了你能记住的所有信息
可惜的是 $S_t$ 并不能捕捉之前所有时间点的信息，或者说在网络传播的过程中会 "忘掉" 一部分。就像你考研也记不住所有的英语单词一样
和卷积神经网络一样，RNN 中的每个节点都共享了一组参数 $(U, V, W)$，这样就能极大降低计算量

RNN 原理

January 26, 2020 • Read: 5417 • Deep Learning • 阅读设置