“回归”名词的由来
1889年,英国著名统计学家Francils Galton在研究父代与子代身高之间的关系时发现:身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们的父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高。
Galton把这种后代的身高向中间值靠近的趋势称为“回归现象”。后来人们把由一个变量的变化去推测另一个变量的变化的方法称为“回归方法”
函数关系和统计相关关系
函数关系:自变量的取值确定后,因变量的值就完全确定,如圆的半径与圆的面积就构成函数关系
统计相关关系:自变量的取值确定后,因变量的值并不完全确定,通过大量的统计数据又可发现它们之间确实存在着某种关系,这时称自变量与因变量之间构成统计相关关系。如:
- 商品定价x与该商品的销售量y
- 日期x与某地的日平均气温y
- 父母身高(x,y)与孩子成年后的身高z
上述自变量与相应因变量之间都构成统计相关关系
回归分析步骤
回归分析的基本步骤如下:
- 根据自变量与因变量的现有数据以及关系,初步设定回归方程
- 求出合理的回归系数
- 进行相关性检验,确定相关系数
- 在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间
根据因变量与自变量的相关关系,将回归分析类型分为
- 线性回归
- 非线性回归
- 逻辑回归
线性回归分析
一元线性回归分析
如果两个变量呈线性关系,就可用一元线性回归方程来描述。其一般形式为Y=a+bX,其中,X是自变量,Y是因变量,a、b是一元线性回归方程的系数
a、b的估计值应该是使误差平方和D(a,b)取最小值的a、b。$D(a,b)=\sum_{i=1}^n{(y_i-a-bx_i)^2}$
可以采用最小二乘法估计系数,为了使D(a,b)取最小值,分别取D关于a、b的偏导数,并令他们等于零:
$$ \frac{\partial D}{\partial a} = -2 \sum_{i=1}^n{(y_i-a-bx_i)}=0\\ \frac{\partial D}{\partial b} = -2 \sum_{i=1}^n{(y_i-a-bx_i)x_i}=0 $$
求解上述方程组,得到唯一的一组解$\hat a、\hat b$
示例
给出一个广告公司的广告费与销售额的几组数据,要求分析其中存在什么关系
首先做个散点图,观察其是否存在线性关系
将广告费作为自变量,销售额作为因变量
观察后发现确实存在线性关系,所以接下来进行回归分析
R表示拟合度,它的值越接近1越好;显著性值小于0.05就可以认为回归方程是有用的,0.531是a,189.753是b,所以得到的回归方程为$y=0.531+189.753x$
多元线性回归分析
多元回归是指因变量$Y$与多个自变量$X_1$、$X_2$、…、$X_p$有关。其一般形式为:
$$ Y=a+b_1X_1+...+b_pX_p $$
对于$Y$关于$X_1$、$X_2$、…、$X_p$的$p$元线性回归方程,同样采用最小二乘法估计系数$a、b_1、...、b_p$
非线性回归分析
非线性回归分析的处理方法
- 首先确定非线性模型的函数类型,对于其中可线性化问题则通过变量变换将其线性化,从而归结为前面介绍的多元线性回归问题来解决
- 若实际问题的曲线类型不易确定时,由于任意曲线皆可由多项式来逼近,所以常用多项式回归来拟合曲线
- 若变量间非线性关系式已知(多数未知),且难以用变量变换法将其线性化,则进行数值迭代的非线性回归分析
对于可转换成线性回归的非线性回归,其基本处理方法是,通过变量变换,将非线性回归化为线性回归,然后用线性回归方法处理
指数函数
- 基本形式:$y=ae^{bx}$
- 线性化方法
- 两端取对数得:$lny = lna+bx$
- 令$y'=lny,则有y'=lna+bx$
对数函数
- 基本形式:$y=a+blogx$
- 线性化方法
- $x'=logx,则有y=a+bx'$
幂函数
- 基本形式:$y=ax^b$
- 线性化方法
- 两端取对数得:$logy=loga+blogx$
- 令:$y'=logy,x'=logx,则y'=loga+bx'$
拟合与回归的区别
拟合的概念更广泛,拟合包含回归,还包含插值和逼近。拟合是一种数据处理的方式,不特指哪种方法。简单的说就是你有一组数据,觉得这组数据和一个已知的函数(这个函数的参数未定)很相似,为了得到最能表示这组数据特征的这个函数,通过拟合这种方式(具体的数学方法很多)求得参数.而回归是一种特定的数学方法,它可以实现数据拟合,得到函数的参数。也有些拟合得到的参数并非是函数的参数,如神经网络,得到的是这个神经网络的参数。