MENU

Explanation of logistic regression cost function

April 1, 2019 • Read: 283 • Deep Learning

前面我们已经分析了逻辑回归损失函数的表达式,在这节中,我将给出一个简洁的证明,来说明逻辑回归的损失函数为什么是这种形式

回想一下,在逻辑回归中,需要预测的结果$\hat{y}$可以表示为$\hat{y}=\sigma(\omega^Tx+b)$,$\sigma$是我们熟悉的$S$型函数$\sigma(z)=\sigma(\omega^T+b)=\frac{1}{1+e^{-z}}$。我们约定$\hat{y}=p(y=1|x)$,即算法的输出$\hat{y}$是给定训练样本$x$的条件下,$y$等于1的概率。换句话说,如果$y=1$,在给定训练样本$x$的条件下$y=\hat{y}$;反过来说,如果$y=0$,在给定训练样本$x$的条件下$y=1-\hat{y}$,因此,如果$\hat{y}$代表$y=1$的概率,那么$1-\hat{y}$就是$y=0$的概率。接下来,我们就来分析这两个条件概率公式

上述的两个条件概率公式可以合并成如下公式

$$ p(y|x)=\hat{y}^y(1-\hat{y})^{(1-y)} $$

解释一下为什么

第一种情况,假设$y=1$,那么$\hat{y}^y=\hat{y}$,因为$\hat{y}$的1次方等于$\hat{y}$,$1-(1-\hat{y})^{(1-y)}$的指数项$(1-y)=0$,由于任何数的0次方都是1,所以后面这个式子结果是1。因此当$y=1$时$p(y|x)=\hat{y}$(图中绿色部分)

第二种情况,假设$y=0$,同样分析$\hat{y}^{y}=1$,$(1-\hat{y})^{1-y}=1-\hat{y}$。因此当$y=0$时$p(y|x)=1-hat{y}$。这就是这个公式(第二个公式,图中紫色字体部分)的结果

刚才的推导表明,$\hat{y}^{(y)}(1-\hat{y})^{(1-y)}$就是$p(y|x)$的完整定义,由于 log 函数是严格单调递增的函数,最大化$log(p(y|x))$等价于最大化$p(y|x)$,并且计算$p(y|x)$的log对数,就是计算$log(\hat{y}^{(y)}(1-\hat{y})^{(1-y)})$,化简得

$$ ylog\hat{y}+(1-y)log(1-\hat{y}) $$

而这是我们前面提到的损失函数的负数$-L(\hat{y},y)$,前面有一个负号的原因是当你训练学习算法时需要算法输出值的概率是最大的,然而在逻辑回归中我们需要最小化损失函数

在$m$个训练样本的整个训练集中又该如何表示呢?

假设所有的训练样本服从同一分布且相互独立,也即独立同分布的,所有这些样本的联合概率就是每个样本概率的乘积

$$ \prod_{i=1}^{m}P(y^{(i)}|x^{(i)}) $$

如果你想做最大似然估计,需要寻找一组参数,使得给定样本的观测值概率最大,这个概率最大化等价于其对数最大化,在等式两边取对数

$$ log\prod_{i=1}^{m}P(y^{(i)}|x^{(i)})=sum_{i=1}^{m}logP(y^{(i)}|x^{(i)})=\sum_{i=1}^{m}-L(\hat{y}^{(i)},y^{(i)}) $$

Archives Tip
QR Code for this page
Tipping QR Code