回归分析算法

“回归” 名词的由来展开目录

1889 年，英国著名统计学家 Francils Galton 在研究父代与子代身高之间的关系时发现：身材较高的父母，他们的孩子也较高，但这些孩子的平均身高并没有他们的父母的平均身高高；身材较矮的父母，他们的孩子也较矮，但这些孩子的平均身高却比他们父母的平均身高高。

Galton 把这种后代的身高向中间值靠近的趋势称为 “回归现象”。后来人们把由一个变量的变化去推测另一个变量的变化的方法称为 “回归方法”

函数关系和统计相关关系展开目录

函数关系：自变量的取值确定后，因变量的值就完全确定，如圆的半径与圆的面积就构成函数关系

统计相关关系：自变量的取值确定后，因变量的值并不完全确定，通过大量的统计数据又可发现它们之间确实存在着某种关系，这时称自变量与因变量之间构成统计相关关系。如：

商品定价 x 与该商品的销售量 y
日期 x 与某地的日平均气温 y
父母身高 (x,y) 与孩子成年后的身高 z

上述自变量与相应因变量之间都构成统计相关关系

回归分析步骤展开目录

回归分析的基本步骤如下：

根据自变量与因变量的现有数据以及关系，初步设定回归方程
求出合理的回归系数
进行相关性检验，确定相关系数
在符合相关性要求后，即可根据已得的回归方程与具体条件相结合，来确定事物的未来状况，并计算预测值的置信区间

根据因变量与自变量的相关关系，将回归分析类型分为

线性回归
非线性回归
逻辑回归

线性回归分析展开目录

一元线性回归分析展开目录

如果两个变量呈线性关系，就可用一元线性回归方程来描述。其一般形式为 Y=a+bX，其中，X 是自变量，Y 是因变量，a、b 是一元线性回归方程的系数

a、b 的估计值应该是使误差平方和 D (a,b) 取最小值的 a、b。$D (a,b)=\sum_{i=1}^n {(y_i-a-bx_i)^2}$

可以采用最小二乘法估计系数，为了使 D (a,b) 取最小值，分别取 D 关于 a、b 的偏导数，并令他们等于零：

$$ \frac{\partial D}{\partial a} = -2 \sum_{i=1}^n{(y_i-a-bx_i)}=0\\ \frac{\partial D}{\partial b} = -2 \sum_{i=1}^n{(y_i-a-bx_i)x_i}=0 $$

求解上述方程组，得到唯一的一组解 $\hat a、\hat b$

示例展开目录

给出一个广告公司的广告费与销售额的几组数据，要求分析其中存在什么关系

首先做个散点图，观察其是否存在线性关系
将广告费作为自变量，销售额作为因变量
观察后发现确实存在线性关系，所以接下来进行回归分析
R 表示拟合度，它的值越接近 1 越好；显著性值小于 0.05 就可以认为回归方程是有用的，0.531 是 a，189.753 是 b，所以得到的回归方程为 $y=0.531+189.753x$

多元线性回归分析展开目录

多元回归是指因变量 $Y$ 与多个自变量 $X_1$、$X_2$、…、$X_p$ 有关。其一般形式为：

$$ Y=a+b_1X_1+...+b_pX_p $$

对于 $Y$ 关于 $X_1$、$X_2$、…、$X_p$ 的 $p$ 元线性回归方程，同样采用最小二乘法估计系数 $a、b_1、...、b_p$

非线性回归分析展开目录

非线性回归分析的处理方法

首先确定非线性模型的函数类型，对于其中可线性化问题则通过变量变换将其线性化，从而归结为前面介绍的多元线性回归问题来解决
若实际问题的曲线类型不易确定时，由于任意曲线皆可由多项式来逼近，所以常用多项式回归来拟合曲线
若变量间非线性关系式已知（多数未知），且难以用变量变换法将其线性化，则进行数值迭代的非线性回归分析

对于可转换成线性回归的非线性回归，其基本处理方法是，通过变量变换，将非线性回归化为线性回归，然后用线性回归方法处理

指数函数展开目录

基本形式：$y=ae^{bx}$
线性化方法

两端取对数得：$lny = lna+bx$
令 $y'=lny，则有 y'=lna+bx$

对数函数展开目录

基本形式：$y=a+blogx$
线性化方法

$x'=logx，则有 y=a+bx'$

幂函数展开目录

基本形式：$y=ax^b$
线性化方法

两端取对数得：$logy=loga+blogx$
令：$y'=logy,x'=logx, 则 y'=loga+bx'$

拟合与回归的区别展开目录

拟合的概念更广泛，拟合包含回归，还包含插值和逼近。拟合是一种数据处理的方式，不特指哪种方法。简单的说就是你有一组数据，觉得这组数据和一个已知的函数（这个函数的参数未定）很相似，为了得到最能表示这组数据特征的这个函数，通过拟合这种方式（具体的数学方法很多）求得参数。而回归是一种特定的数学方法，它可以实现数据拟合，得到函数的参数。也有些拟合得到的参数并非是函数的参数，如神经网络，得到的是这个神经网络的参数。

Catalog