时间序列表示方法

自然界中，除了 2D、3D 的图片、视频驶距以外，更多的是一些类似于序列的数据，比如语音、文字，这些数据都是有时间先后顺序的

现在就有这样一个问题，对于一个 2D 图片顺序，我们用一个像素点的 RGB 值来表示这个像素的色彩度。但是对于语音、文字该如何表示呢？

语音在某一个时间段会产生一段波形，这段波形中波峰值就可以表示此刻声音的强度。对于一段文字中的字符也可以表示。但是在 PyTorch 中是没有 string 类型的，我们必须要把 string 类型表示为另外一种数值类型。如何进行时间序列的表示（Representation），如何进行时间序列的信息提取（Information Extraction ）就成了时间序列研究的关键问题

Sequence Representation

$[\text{seq_len}, \text{feature_len}]$
假设一句话有 5 个单词，那么 $\text {seq_len}=5$，而 $\text {feature_len}$ 取决于你的应用场景，比方说每个单词用一个 1 维向量来表示，那么 $\text {feature_len}=1$，如果每个单词用一个 100 维向量来表示，那么 $\text {feature_len}=100$

例如下图的历史房价图，所采用的表示方式就是 [100,1]

How to represent a word

通常我们会使用 one-hot Encoding 的方式对文字进行编码，看下面的一个例子

假设有下面的两句话：

have a good day
have a great day
这两句话共有 5 个词汇，于是可以用 $V$ 表示，其中 $V=\{\text {have}, \text {a}, \text {good}, \text {great}, \text {day}\}$。因为有 5 个词汇，所以每个词汇都用一个 5 维的向量进行表示，如下所示：
have = [1, 0, 0, 0, 0]
a = [0, 1, 0, 0, 0]
good = [0, 0, 1, 0, 0]
great = [0, 0, 0, 1, 0]
day = [0, 0, 0, 0, 1]

但这么做有以下的缺点：

每个 word 的 vector 都是独立的，所以使用 one-hot Encoding 没有体现单词语单词之间的关系
如果词汇量很多，则 vector 的维度会很大，同时造成数据稀疏问题

Word Embedding

上面 one-hot Encoding 存在很多问题，那么应该如何修改呢？我们可以用另一种方式去定义每一个单词 ——word embedding。下面这句话解释 word embedding 很合适

Word embeddings embed meaning of text in a vector space.（把文本的意思嵌入到向量空间中）

有一些词的词性是相近的，比如 “love” 和 “like”，对于这种词性相近的词，我们需要他们的向量表示也能相近，如何度量和定义向量之间的相似程度呢？非常简单，就是使用两个向量的夹角，夹角越小，越相近。举个例子，下面有 4 段话

The cat likes playing wool.
The kitty likes playing wool.
The dog likes playing ball
The boy does not like playing ball or wool.

这里面有 4 个词，分别是 cat,kitty,dog 和 boy。下面我们使用一个二维的词向量 $(a,b)$ 来表示每一个词，其中 a 和 b 分别代表着这个词的一种属性，比如 a 代表是否喜欢玩球，b 代表是否喜欢玩毛线，数值越大表示越喜欢，那么我们就能用数值来定义每一个单词

对于 cat，我们可以定义他的 word embedding 为 (-1, 4)，因为它不喜欢玩球，喜欢玩毛线；kitty 为 (-2, 5)；dog 为 (3, -2)；boy 为 (-2,-3)。把这四个向量在坐标系中表示出来

从上图就能明显看出 kitty 和 cat 的夹角比较小，所以它们比较相似，dog 和 boy 之间的夹角很大，所以它们不相似

下面说一下具体公式。对于向量 $\boldsymbol {x}, \boldsymbol {y} \in \mathbb {R}^d$，它们的余弦相似度是它们之间夹角的余弦值

$$ \frac{\boldsymbol{x}^\top \boldsymbol{y}}{\|\boldsymbol{x}\| \|\boldsymbol{y}\|} \in [-1, 1]. $$

在 PyTorch 中 Word Embedding 是通过一个函数来实现的 nn.Embedding

import torch
import torch.nn as nn

word_to_idx = {"hello": 0, "world": 1} # 给每个词打上索引

lookup_tensor = torch.tensor([word_to_idx["hello"]], dtype=torch.long) # 取出"hello"对应的索引

embeds = nn.Embedding(2, 5) # 2 words in vocab, 5 dimensional embeddings
hello_embed = embeds(lookup_tensor) # 传入索引

print(hello_embed)

输出

tensor([[-1.2999,  2.2142,  0.2436, -1.9585,  0.8714]],
       grad_fn=<EmbeddingBackward>)

稍微解释下这几行代码，首先因为每个单词都需要用一个数字去表示，所以我们要构建一个单词 - 数字之间的映射

然后是 nn.Embedding(2, 5)，2 表示有 2 个词，5 表示 5 维，其实也就是个 2×5 的矩阵。所以如果你有 1000 个词，每个词希望是 100 维，你就可以这样写这行代码 nn.Embedding(1000, 100)