MENU

回归分析算法

October 22, 2018 • Read: 4828 • 数据挖掘与机器学习阅读设置

“回归” 名词的由来展开目录

1889 年,英国著名统计学家 Francils Galton 在研究父代与子代身高之间的关系时发现:身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们的父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高。

Galton 把这种后代的身高向中间值靠近的趋势称为 “回归现象”。后来人们把由一个变量的变化去推测另一个变量的变化的方法称为 “回归方法”

函数关系和统计相关关系展开目录

函数关系:自变量的取值确定后,因变量的值就完全确定,如圆的半径与圆的面积就构成函数关系

统计相关关系:自变量的取值确定后,因变量的值并不完全确定,通过大量的统计数据又可发现它们之间确实存在着某种关系,这时称自变量与因变量之间构成统计相关关系。如:

  • 商品定价 x 与该商品的销售量 y
  • 日期 x 与某地的日平均气温 y
  • 父母身高 (x,y) 与孩子成年后的身高 z

上述自变量与相应因变量之间都构成统计相关关系

回归分析步骤展开目录

回归分析的基本步骤如下:

  1. 根据自变量与因变量的现有数据以及关系,初步设定回归方程
  2. 求出合理的回归系数
  3. 进行相关性检验,确定相关系数
  4. 在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间

根据因变量与自变量的相关关系,将回归分析类型分为

  • 线性回归
  • 非线性回归
  • 逻辑回归

线性回归分析展开目录

一元线性回归分析展开目录

如果两个变量呈线性关系,就可用一元线性回归方程来描述。其一般形式为 Y=a+bX,其中,X 是自变量,Y 是因变量,a、b 是一元线性回归方程的系数

a、b 的估计值应该是使误差平方和 D (a,b) 取最小值的 a、b。$D (a,b)=\sum_{i=1}^n {(y_i-a-bx_i)^2}$

可以采用最小二乘法估计系数,为了使 D (a,b) 取最小值,分别取 D 关于 a、b 的偏导数,并令他们等于零:

$$ \frac{\partial D}{\partial a} = -2 \sum_{i=1}^n{(y_i-a-bx_i)}=0\\ \frac{\partial D}{\partial b} = -2 \sum_{i=1}^n{(y_i-a-bx_i)x_i}=0 $$

求解上述方程组,得到唯一的一组解 $\hat a、\hat b$

示例展开目录

给出一个广告公司的广告费与销售额的几组数据,要求分析其中存在什么关系

首先做个散点图,观察其是否存在线性关系
将广告费作为自变量,销售额作为因变量
观察后发现确实存在线性关系,所以接下来进行回归分析
R 表示拟合度,它的值越接近 1 越好;显著性值小于 0.05 就可以认为回归方程是有用的,0.531 是 a,189.753 是 b,所以得到的回归方程为 $y=0.531+189.753x$

多元线性回归分析展开目录

多元回归是指因变量 $Y$ 与多个自变量 $X_1$、$X_2$、…、$X_p$ 有关。其一般形式为:

$$ Y=a+b_1X_1+...+b_pX_p $$

对于 $Y$ 关于 $X_1$、$X_2$、…、$X_p$ 的 $p$ 元线性回归方程,同样采用最小二乘法估计系数 $a、b_1、...、b_p$

非线性回归分析展开目录

非线性回归分析的处理方法

  1. 首先确定非线性模型的函数类型,对于其中可线性化问题则通过变量变换将其线性化,从而归结为前面介绍的多元线性回归问题来解决
  2. 若实际问题的曲线类型不易确定时,由于任意曲线皆可由多项式来逼近,所以常用多项式回归来拟合曲线
  3. 若变量间非线性关系式已知(多数未知),且难以用变量变换法将其线性化,则进行数值迭代的非线性回归分析

对于可转换成线性回归的非线性回归,其基本处理方法是,通过变量变换,将非线性回归化为线性回归,然后用线性回归方法处理

指数函数展开目录

  1. 基本形式:$y=ae^{bx}$
  2. 线性化方法
  • 两端取对数得:$lny = lna+bx$
  • 令 $y'=lny,则有 y'=lna+bx$

对数函数展开目录

  1. 基本形式:$y=a+blogx$
  2. 线性化方法
  • $x'=logx,则有 y=a+bx'$

幂函数展开目录

  1. 基本形式:$y=ax^b$
  2. 线性化方法
  • 两端取对数得:$logy=loga+blogx$
  • 令:$y'=logy,x'=logx, 则 y'=loga+bx'$

拟合与回归的区别展开目录

拟合的概念更广泛,拟合包含回归,还包含插值和逼近。拟合是一种数据处理的方式,不特指哪种方法。简单的说就是你有一组数据,觉得这组数据和一个已知的函数(这个函数的参数未定)很相似,为了得到最能表示这组数据特征的这个函数,通过拟合这种方式(具体的数学方法很多)求得参数。而回归是一种特定的数学方法,它可以实现数据拟合,得到函数的参数。也有些拟合得到的参数并非是函数的参数,如神经网络,得到的是这个神经网络的参数。

Archives Tip
QR Code for this page
Tipping QR Code
Leave a Comment