回归分析
相关与回归分析
方差分析研究的是分类型自变量与数值型因变量的关系,而相关与回归分析研究的是 数值型自变量与数值型自变量的关系。
- 从变量的数量多少来看
- 简单相关与简单回归分析:两个变量之间的关系
- 多元相关与多元回归分析:两个以上变量之间的关系
- 从变量的关系形态来看
- 线性相关与线性回归分析
- 非线性相关与非线性回归分析
本书主要介绍线性相关与线性回归分析(包括一元和多元),不介绍非线性
简单线性相关与多元线性相关
关系的种类
- 关系
- 函数关系:变量之间关系是确定的,确定的自变量对应确定的应变量
- 相关关系
- 定义:变量之间存在的不确定的数量关系称为相关关系
- 理解:对于确定的自变量值,因变量的值不唯一,不确定。同样对于确定的因变量,自变量的值也不一定。正是由于影响一个变量的因素非常多,所以才造成了变量之间的关系的不确定性。
相关与回归分析正是探索与描述这种不确定的变量之间关系及其规律的统计方法。
相关关系的描述和测度
我们要考虑的是变量之间是否存在关系,存在什么样的关系(正向,负向),关系的强度如何,样本所反映的变量之间的关系能否代表总体变量之间的关系。
简单相关分析
简单相关分析对总体所做的假定
- 两个变量之间是线性关系
- 两个变量都是随机变量
步骤
- 通过散点图来判断变量之间的关系形态
- 线性相关:相关且线性
- 非线性相关:相关但是非线性
- 完全相关:观测点完全落在一条直线上
- 不相关:分散无规律
- 如果是线性关系,则可以利用
- 相关系数:测度关系强度
- 定义:根据样本数据计算的度量两个变量之间线性关系强度的统计量
- 总体相关系数
:根据总体全部数据计算 - 样本相关系数 r:根据样本数据计算
- 按上式计算的相关系数也称为线性相关系数或称为Pearson相关系数
:正线性相关 :负线性相关- r=0:不存在线性相关,而不是没有关系
- r=1:完全正线性相关
- r=-1:完全负线性相关
- r具有对称性:
- r的数值大小与x和y的原点及尺度无关。改变x和y的数据原点及计量尺度,并不改变r的数值大小。
- r不能用于描述非线性关系,r=0表示不存在线性相关,可能存在非线性关系。
- 相关关系不等同与因果关系
- 在相关系数的显著性通过的情况下:
时,高度相关 时,中度相关 时,低度相关 时,可认为不相关
- 显著性检验:判断该相关系数是否有效,即样本关系能否代表总体关系
- r的抽样分布随总体系数
和样本量n的大小变化而变化- 当
为较大的正值时,r呈现左偏分布 - 当
为较大的负值时,r呈现右偏分布 - 只有当
接近0,且样本量n很大时,才能认为r是接近正态分布的随机变量,所以一般不采用正态检验
- 当
- 采用t检验
- 提出假设:
- 计算检验的统计量:
- 若
,拒绝原假设
- 提出假设:
- 需要注意的是及时统计检验表明相关系数在统计上是显著的,也并不一定意味着两个变量之间就存在着重要的相关性,因为在大样本情况下,几乎总是导致相关系数显著。
- r的抽样分布随总体系数
- 相关系数:测度关系强度
而对于多元线性回归:
回归分析
- 因变量:被预测或解释的变量
- 自变量:用来预测或解释因变量的一个或多个变量称为自变量
步骤 | 一元线性回归 | 多元线性回归 |
---|---|---|
回归模型 | 定义:描述因变量y如何依赖于自变量x和误差项 假定: 该式称为理论回归模型,有以下几个主要的假定 1. 因变量y与因变量x之间具有线性关系 在重复抽样中,自变量x的取值是固定的 也就是说,对于每一个固定的x,y的取值都对应着一个分布 2. 误差项 所以 3. 对于所有的x值, 也就是对于固定的x值,y的方差都为 4. 误差项 5. 对于任一个给定的x值, |
定义:描述因变量y如何依赖于自变量 (1) (2)对于任意 (3)误差项服从正态分布,且相互独立。 |
回归方程 | 定义: 描述因变量y的期望值如何依赖于自变量x的方程。 估计的回归方程 它是根据样本数据求出的回归方程的估计 |
估计的多元回归方程 |
参数估计 | 最小二乘法(最小平方法) 1. 定义:通过使因变量的观测值 2. 性质 1. 离差平方和最小(不代表是最佳直线 2. 3. 在某些条件下,参数的最小二乘估计量的抽样分布有较小的标准差 参数的估计公式 要使 |
同样利用最小二乘法以及求偏导的方法计算参数,但是比较复杂,所以没有公式. |
显著性检验 | 线性关系的检验(模型的检验) 均方回归: 均方残差 统计量: 1. 提出假设 2. 计算检验统计量F: 3. 做出决策。若 回归系数的检验 检验回归系数 1. 提出检验 2. 计算检验统计量t: 3. 做出决策 若 在一元线性回归中,F检验与t检验是等价的 |
线性关系检验(总体显著性检验):检验因变量与多个自变量之间的线性关系是否显著,在k个自变量中,只要有一个自变量与因变量的线性关系显著,F检验就能通过。 检验步骤 1. 提出假设 2. 计算检验统计量F: 3. 做出决策。若 回归系数检验:对每个回归系数进行单独的检验,用于检验每个自变量对因变量的影响是否显著。 检验步骤 1. 提出检验,对任意 2. 计算检验统计量t: 3. 做出决策 若 回归系数 |
残差分析(误差项假定的判定) | 残差(e):因变量的观测值 方差相等的判断 以样本值为横轴,残差为纵值,绘制残差图 若方差相等,那么所有点都应落在一条水平带的中间 标准化残差(Pearson残差或半学生化残差) |
没有差别 |
拟合优度 | 变差:y取值的波动称为变差 变差来自两个方面: 1. 自变量的取值不同造成的 2. 除x外的其他因素(如x对y产生的非线性影响、测量误差等)的影响 变差的衡量与分解 1. 总平方和 SST= 反映了y的总变差中由于x和y之间的线性关系引起的y的变化部分 3. 残差平方和(误差平方和)SSE= 除了x对y的线性影响之外的其他因素引起的y的变化部分 判定系数 相关系数r实际上是判定系数的平方根 估计标准误差 度量各实际观测点在直线周围的散布状况的一个统计量 |
和一元回归一样,多元回归中也有多重判定系数 它是度量多元回归方程拟合程度的一个统计量,反映了因变量y的变差中被估计的回归方程所解释的比例。 多重判定系数的问题: 该值会随着自变量的增大而增大。 调整的多重判定系数 在多元回归分析中,常用调整的多重判定系数。它的意义为:在用样本量和模型中自变量的个数进行调整后,因变量的变差中,能被多元回归方程所解释的比例。 估计标准误差 |
利用回归方程进行预测 | 点估计 1. 平均值的点估计 2. 个别值的点估计 直接根据公式计算,在点估计条件下,对于同一个 区间估计 1.置信区间估计:求y的平均值的区间估计 用 y的个别的预测区间估计 是对x的一个给定值 个别值 |
点估计直接计算,置信区间与预测区间不介绍 |
多元线性回归中的多重共线性与变量取舍问题
多重共线性
当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。
多重共线性带来的主要麻烦是对单个回归系数的解释和检验,在求自变量的置信区间和预测区间时一般不会受其影响。但必须保证用于估计或预测的自变量的值是在样本数据的范围之内,因此,如果仅仅是为了估计或预测,可以将所有自变量都保留在模型中。
多重共线性的判别
- 模型中各对自变量之间显著相关
- 计算模型中各对自变量之间的相关系数r
- 判断r的显著性:
,若 ,则拒绝原假设,相关性显著。
- 当模型的线性关系检验(F检验)显著时,几乎所有回归系数
的t检验却不显著。 - 回归系数的正负号与预期的相反
- 容忍度和方差扩大因子
- 某个自变量的容忍度=1-
, 为改自变量为因变量,与其他k-1个自变量构建线性回归模型所得到的的判定系数,容忍度越小,多重共线性越严重,一般认为当容忍度小于0.1时,存在严重的多重共线性. - 方差扩大因子(VIF)=
,是容忍度的倒数,认为VIF>10时,存在严重的多重共线性.
- 某个自变量的容忍度=1-
多重共线性的处理
- 将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关
- 如果要在模型中保存所有的自变量
- 避免根据t统计量对单个参数值进行检验
- 对因变量y值的推断(估计或预测)限定在自变量样本值的范围内。
变量选择与逐步回归
在模型构建之前对自变量进行一定的删选 * 使模型建立变得容易 * 使模型更具有可操作性 * 更容易解释
回归中的搜寻过程
在进行回归时,每次只增加一个变量,并且将新变量与模型中的变量进行比较,若新变量引入模型后以前的某个变量的t统计量变得不显著,这个变量就会被从模型中剔除,在这种情况下,回归分析就很难存在多重共线性的影响。
选择自变量的原则
对统计量进行显著性检验
检验根据:引入一个新的变量后,SSE应显著减少,使用F统计量作为判断标准。
变量选择的方法 | 步骤 | 特点 |
---|---|---|
向前选择 | 1. 对每个自变量 2. 再将剩下的自变量与其组合,找组合变量构建的二元线性回归模型中F统计量最大的模型对应的自变量,反复进行,直到模型外的自变量加进行来后模型皆不显著,则该模型为最终模型 |
只要将某个自变量加到模型中,模型就一定会保存在模型中。即使t检验不通过 |
向后剔除 | 1. 先对因变量拟合包含所有k个自变量的线性回归模型。然后考察p(p < k) 个去掉一个自变量的模型的模型,使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除。及F值最小的变量。 2. 考察p-1个再去掉一个自变量的模型(这些模型中的每一个都有k-2个自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除,反复进行,直至剔除任一个变量都不会使模型的SSE显著减少。 |
|
逐步回归 | 逐步回归将两种方法结合起来。 1. 前两步与向前选择法相同。然后,再增加自变量,此时,在增加了一个自变量后,它会对模型中的所有变量进行考察,看看有没有剔除某个变量的可能性。如果在增加了某一个自变量后,前面的某个自变量对模型的贡献变得不显著,这个变量就会被剔除(t检验) 2. 逐步回归过程就是按此方法不停的增加变量并且考虑剔除以前增加的变量的可能性,直至F值不会显著变大 |
在前面赠加的自变量在后面的步骤中有可能被剔除,而在前面步骤中被剔除的自变量在后面的步骤中也可能重新进入模型 |
有季节性(不管有无趋势)|季节性预测法
1.季节多元回归模型
2.季节自回归模型
3.时间序列分解:
构建模型为
步骤
(1). 确定并分离季节成分。计算季节指数,以确定时间序列中的季节成分.然后将季节成分从时间序列中分离出去,即用每一个时间序列观察值除以相应的季节指数,消除季节性