“回归” 名词的由来展开目录
1889 年,英国著名统计学家 Francils Galton 在研究父代与子代身高之间的关系时发现:身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们的父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高。
Galton 把这种后代的身高向中间值靠近的趋势称为 “回归现象”。后来人们把由一个变量的变化去推测另一个变量的变化的方法称为 “回归方法”
函数关系和统计相关关系展开目录
函数关系:自变量的取值确定后,因变量的值就完全确定,如圆的半径与圆的面积就构成函数关系
统计相关关系:自变量的取值确定后,因变量的值并不完全确定,通过大量的统计数据又可发现它们之间确实存在着某种关系,这时称自变量与因变量之间构成统计相关关系。如:
- 商品定价 x 与该商品的销售量 y
- 日期 x 与某地的日平均气温 y
- 父母身高 (x,y) 与孩子成年后的身高 z
上述自变量与相应因变量之间都构成统计相关关系
回归分析步骤展开目录
回归分析的基本步骤如下:
- 根据自变量与因变量的现有数据以及关系,初步设定回归方程
- 求出合理的回归系数
- 进行相关性检验,确定相关系数
- 在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间
根据因变量与自变量的相关关系,将回归分析类型分为
- 线性回归
- 非线性回归
- 逻辑回归
线性回归分析展开目录
一元线性回归分析展开目录
如果两个变量呈线性关系,就可用一元线性回归方程来描述。其一般形式为 Y=a+bX,其中,X 是自变量,Y 是因变量,a、b 是一元线性回归方程的系数
a、b 的估计值应该是使误差平方和 D (a,b) 取最小值的 a、b。$D (a,b)=\sum_{i=1}^n {(y_i-a-bx_i)^2}$
可以采用最小二乘法估计系数,为了使 D (a,b) 取最小值,分别取 D 关于 a、b 的偏导数,并令他们等于零:
$$ \frac{\partial D}{\partial a} = -2 \sum_{i=1}^n{(y_i-a-bx_i)}=0\\ \frac{\partial D}{\partial b} = -2 \sum_{i=1}^n{(y_i-a-bx_i)x_i}=0 $$
求解上述方程组,得到唯一的一组解 $\hat a、\hat b$
示例展开目录
给出一个广告公司的广告费与销售额的几组数据,要求分析其中存在什么关系
首先做个散点图,观察其是否存在线性关系将广告费作为自变量,销售额作为因变量
观察后发现确实存在线性关系,所以接下来进行回归分析
R 表示拟合度,它的值越接近 1 越好;显著性值小于 0.05 就可以认为回归方程是有用的,0.531 是 a,189.753 是 b,所以得到的回归方程为 $y=0.531+189.753x$
多元线性回归分析展开目录
多元回归是指因变量 $Y$ 与多个自变量 $X_1$、$X_2$、…、$X_p$ 有关。其一般形式为:
$$ Y=a+b_1X_1+...+b_pX_p $$
对于 $Y$ 关于 $X_1$、$X_2$、…、$X_p$ 的 $p$ 元线性回归方程,同样采用最小二乘法估计系数 $a、b_1、...、b_p$
非线性回归分析展开目录
非线性回归分析的处理方法
- 首先确定非线性模型的函数类型,对于其中可线性化问题则通过变量变换将其线性化,从而归结为前面介绍的多元线性回归问题来解决
- 若实际问题的曲线类型不易确定时,由于任意曲线皆可由多项式来逼近,所以常用多项式回归来拟合曲线
- 若变量间非线性关系式已知(多数未知),且难以用变量变换法将其线性化,则进行数值迭代的非线性回归分析
对于可转换成线性回归的非线性回归,其基本处理方法是,通过变量变换,将非线性回归化为线性回归,然后用线性回归方法处理
指数函数展开目录
- 基本形式:$y=ae^{bx}$
- 线性化方法
- 两端取对数得:$lny = lna+bx$
- 令 $y'=lny,则有 y'=lna+bx$
对数函数展开目录
- 基本形式:$y=a+blogx$
- 线性化方法
- $x'=logx,则有 y=a+bx'$
幂函数展开目录
- 基本形式:$y=ax^b$
- 线性化方法
- 两端取对数得:$logy=loga+blogx$
- 令:$y'=logy,x'=logx, 则 y'=loga+bx'$
拟合与回归的区别展开目录
拟合的概念更广泛,拟合包含回归,还包含插值和逼近。拟合是一种数据处理的方式,不特指哪种方法。简单的说就是你有一组数据,觉得这组数据和一个已知的函数(这个函数的参数未定)很相似,为了得到最能表示这组数据特征的这个函数,通过拟合这种方式(具体的数学方法很多)求得参数。而回归是一种特定的数学方法,它可以实现数据拟合,得到函数的参数。也有些拟合得到的参数并非是函数的参数,如神经网络,得到的是这个神经网络的参数。