MENU

回归分析算法

October 22, 2018 • Read: 4613 • 数据挖掘与机器学习阅读设置

“回归”名词的由来

1889年,英国著名统计学家Francils Galton在研究父代与子代身高之间的关系时发现:身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们的父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高。

Galton把这种后代的身高向中间值靠近的趋势称为“回归现象”。后来人们把由一个变量的变化去推测另一个变量的变化的方法称为“回归方法”

函数关系和统计相关关系

函数关系:自变量的取值确定后,因变量的值就完全确定,如圆的半径与圆的面积就构成函数关系

统计相关关系:自变量的取值确定后,因变量的值并不完全确定,通过大量的统计数据又可发现它们之间确实存在着某种关系,这时称自变量与因变量之间构成统计相关关系。如:

  • 商品定价x与该商品的销售量y
  • 日期x与某地的日平均气温y
  • 父母身高(x,y)与孩子成年后的身高z

上述自变量与相应因变量之间都构成统计相关关系

回归分析步骤

回归分析的基本步骤如下:

  1. 根据自变量与因变量的现有数据以及关系,初步设定回归方程
  2. 求出合理的回归系数
  3. 进行相关性检验,确定相关系数
  4. 在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间

根据因变量与自变量的相关关系,将回归分析类型分为

  • 线性回归
  • 非线性回归
  • 逻辑回归

线性回归分析

一元线性回归分析

如果两个变量呈线性关系,就可用一元线性回归方程来描述。其一般形式为Y=a+bX,其中,X是自变量,Y是因变量,a、b是一元线性回归方程的系数

a、b的估计值应该是使误差平方和D(a,b)取最小值的a、b。$D(a,b)=\sum_{i=1}^n{(y_i-a-bx_i)^2}$

可以采用最小二乘法估计系数,为了使D(a,b)取最小值,分别取D关于a、b的偏导数,并令他们等于零:

$$ \frac{\partial D}{\partial a} = -2 \sum_{i=1}^n{(y_i-a-bx_i)}=0\\ \frac{\partial D}{\partial b} = -2 \sum_{i=1}^n{(y_i-a-bx_i)x_i}=0 $$

求解上述方程组,得到唯一的一组解$\hat a、\hat b$

示例

给出一个广告公司的广告费与销售额的几组数据,要求分析其中存在什么关系

首先做个散点图,观察其是否存在线性关系

将广告费作为自变量,销售额作为因变量


观察后发现确实存在线性关系,所以接下来进行回归分析



R表示拟合度,它的值越接近1越好;显著性值小于0.05就可以认为回归方程是有用的,0.531是a,189.753是b,所以得到的回归方程为$y=0.531+189.753x$

多元线性回归分析

多元回归是指因变量$Y$与多个自变量$X_1$、$X_2$、…、$X_p$有关。其一般形式为:

$$ Y=a+b_1X_1+...+b_pX_p $$

对于$Y$关于$X_1$、$X_2$、…、$X_p$的$p$元线性回归方程,同样采用最小二乘法估计系数$a、b_1、...、b_p$

非线性回归分析

非线性回归分析的处理方法

  1. 首先确定非线性模型的函数类型,对于其中可线性化问题则通过变量变换将其线性化,从而归结为前面介绍的多元线性回归问题来解决
  2. 若实际问题的曲线类型不易确定时,由于任意曲线皆可由多项式来逼近,所以常用多项式回归来拟合曲线
  3. 若变量间非线性关系式已知(多数未知),且难以用变量变换法将其线性化,则进行数值迭代的非线性回归分析

对于可转换成线性回归的非线性回归,其基本处理方法是,通过变量变换,将非线性回归化为线性回归,然后用线性回归方法处理

指数函数

  1. 基本形式:$y=ae^{bx}$
  2. 线性化方法
  • 两端取对数得:$lny = lna+bx$
  • 令$y'=lny,则有y'=lna+bx$

对数函数

  1. 基本形式:$y=a+blogx$
  2. 线性化方法
  • $x'=logx,则有y=a+bx'$

幂函数

  1. 基本形式:$y=ax^b$
  2. 线性化方法
  • 两端取对数得:$logy=loga+blogx$
  • 令:$y'=logy,x'=logx,则y'=loga+bx'$

拟合与回归的区别

拟合的概念更广泛,拟合包含回归,还包含插值和逼近。拟合是一种数据处理的方式,不特指哪种方法。简单的说就是你有一组数据,觉得这组数据和一个已知的函数(这个函数的参数未定)很相似,为了得到最能表示这组数据特征的这个函数,通过拟合这种方式(具体的数学方法很多)求得参数.而回归是一种特定的数学方法,它可以实现数据拟合,得到函数的参数。也有些拟合得到的参数并非是函数的参数,如神经网络,得到的是这个神经网络的参数。

Archives Tip
QR Code for this page
Tipping QR Code
Leave a Comment