各位如果看到博客内有广告,可以动手点一点,谢谢

MENU

Binary Classification

March 28, 2019 • Read: 295 • Deep Learning

当实现一个神经网络的时候,我们需要知道一些非常重要的技术和技巧。例如有一个包含$m$个样本的训练集,你很可能习惯于用一个for循环来遍历训练集中的每个样本,但是当实现一个神经网络的时候,我们通常不直接使用for循环来遍历整个训练集

另外在神经网络的计算中,通常先有一个叫做前向暂停($forward\ pause$)或叫做前向传播($foward\ propagation$)的步骤,接着有一个叫做反向暂停($backward\ pause$) 或叫做反向传播($backward\ propagation$)的步骤

这里我将使用逻辑回归($logistic\ regression$)来传达这些想法,以使大家能够更加容易地理解这些概念。即使你之前了解过逻辑回归,我认为这里还是有些新的、有趣的东西等着你去发现和了解,所以现在开始进入正题

逻辑回归是一个用于二分类($binary\ classification$)的算法。首先我们从一个问题开始说起,假如你有一张图片作为输入,比如这只猫,如果识别这张图片为猫,则输出标签1作为结果;如果识别出不是猫,那么输出标签0作为结果。现在我们可以用字母$y$来 表示输出的结果标签,如下图所示:

我们来看看一张图片在计算机中是如何表示的,为了保存一张图片,需要保存三个矩阵,它们分别对应图片中的红、绿、蓝三种颜色通道,如果你的图片大小为64x64像素,那么你就有三个规模为64x64的矩阵,分别对应图片中红、绿、蓝三种像素的强度值。为了便于表示,这里我画了三个很小的矩阵,注意它们的规模为5x4 而不是64x64,如下图所示:

为了把这些像素值放到一个特征向量中,我们需要把这些像素值提取出来,然后放入一个特征向量$x$。为了把这些像素值转换为特征向量$x$,我们需要像下面这样定义一个特征向量$x$来表示这张图片,我们把所有的像素都取出来,例如255、231等等,直到取完所有的红色像素,接着最后是255、134、…、255、134等等,直到得到一个特征向量,把图片中所有的红、绿、蓝像素值都列出来。如果图片的大小为64x64像素,那么向量$x$的总维度,将是64乘以64乘以3,这是三个像素矩阵中像素的总量,在这个例子中结果为12,288。现在我们用$n_x = 12,288$,来表示输入特征向量的维度,有时候为了简洁,我会直接用小写的$n$来表示输入特征向量$x$的维度。所以在二分类问题中,我们的目标就是习得一个分类器,它以图片的特征向量作为输入,然后预测输出结果$y$为1还是0,也就是预测图片中是否有猫:

接下来我们说明一些在以后可能常用到的一些符号

  • $x$:表示一个$n_x$维的输入数据,维度为$(n_x,1)$
  • $y$:表示输出结果,取值为$(0,1)$
  • $(x^{(i)},y^{(i)})$:表示第$i$组数据,可能是训练数据,也可能是测试数据,此处默认为训练数据
  • $X=[x^{(1)},x^{(2)},...,x^{(m)}]$:表示所有的训练数据集的输入值,放在一个$n_x\times m$的矩阵中,其中$m$表示样本的数目
  • $Y=[y^{(1)},y^{(2)},...,y^{(m)}]$,对应表示所有训练数据集的输出值,维度为$1\times m$
  • $M_{train}$:表示训练样本的个数
  • $M_{test}$:表示测试集的样本数

用一对$(x,y)$来表示一个单独的样本,$x$代表$n_x$维的特征向量,$y$表示标签(输出结果0或1)。而训练集将由$m$个训练样本组成,其中$(x^{(1)},y^{(1)})$表示第一个样本的输入和输出,$(x^{(2)},y^{(2)})$表示第二个样本的输入和输出,直到最后一个样本$(x^{(m)},y^{(m)})$,然后所有的这些一起表示整个训练集。

最后为了能把训练集表示得更紧凑一点,我们会定义一个矩阵用大写的$X$表示,它由输入向量$x^{(1)}$、$x^{(2)}$等组成。如下图放在矩阵的列中,把$x^{(1)}$作为第一列放在矩阵中,$x^{(2)}$作为第二列,$x^{(m)}$放到第$m$列,然后我们就得到了训练集矩阵$X$。所以这个矩阵有$m$列,$m$是训练集的样本数量,矩阵的高度为$n_x$。注意有时候可能因为其他某些原因,矩阵$X$会由训练样本按照行堆叠起来而不是列,如下图所示,但是在实现神经网络的时候,使用左边的这种形式,会让整个实现的过程变得更加简单

现在来简单温习一下:$X$是一个规模为$n_x \times m$的矩阵,当你使用Python的时候,你可能会看到一条命令X.shape,这条命令用于显示矩阵的规模,即X.shape等于$(n_x,m)$

综上所述,这就是如何将训练样本(输入向量$X$的集合)表示为一个矩阵

那么输出标签$y$呢?同样的道理,为了能更加容易地实现一个神经网络,将标签$y$放在列中将会使得后续计算非常方便,所以我们定义大写的$Y$等于$y^{(1)},...,y^{(m)}$,所以在这里是一个规模为$1\times m$的矩阵,同样地使用PythonY.shape表示为$(1,m)$

Archives Tip
QR Code for this page
Tipping QR Code