self-attention的本质

self-attention 的本质就是从一个矩阵生成三个新的矩阵，这三个矩阵分别记作 qkv，然后将 q 乘以 k 的转置，得到的结果再与 v 相乘，再将最后得到的结果送入下游任务。因此实际上任何网络都可以融入 self-attention，生成三个新矩阵的方式也很简单，只需要调用三次 nn.Linear ()。用什么矩阵来生成三个矩阵？随意，比方说 nlp 中可以用 word2vec 的输出来作为 "母矩阵"，通过三次 nn.linear () 将 "母矩阵" 生成三个 "子矩阵"

以上就是我所理解的 self-attention 的本质