回归分析

相关与回归分析

方差分析研究的是分类型自变量与数值型因变量的关系,而相关与回归分析研究的是 数值型自变量与数值型自变量的关系。

  • 从变量的数量多少来看
    • 简单相关与简单回归分析:两个变量之间的关系
    • 多元相关与多元回归分析:两个以上变量之间的关系
  • 从变量的关系形态来看
    • 线性相关与线性回归分析
    • 非线性相关与非线性回归分析

本书主要介绍线性相关与线性回归分析(包括一元和多元),不介绍非线性

简单线性相关与多元线性相关

关系的种类

  • 关系
    • 函数关系:变量之间关系是确定的,确定的自变量对应确定的应变量
    • 相关关系
      • 定义:变量之间存在的不确定的数量关系称为相关关系
      • 理解:对于确定的自变量值,因变量的值不唯一,不确定。同样对于确定的因变量,自变量的值也不一定。正是由于影响一个变量的因素非常多,所以才造成了变量之间的关系的不确定性。

相关与回归分析正是探索与描述这种不确定的变量之间关系及其规律的统计方法。

相关关系的描述和测度

我们要考虑的是变量之间是否存在关系,存在什么样的关系(正向,负向),关系的强度如何,样本所反映的变量之间的关系能否代表总体变量之间的关系。

简单相关分析

简单相关分析对总体所做的假定

  1. 两个变量之间是线性关系
  2. 两个变量都是随机变量

步骤

  1. 通过散点图来判断变量之间的关系形态
    • 线性相关:相关且线性
    • 非线性相关:相关但是非线性
    • 完全相关:观测点完全落在一条直线上
    • 不相关:分散无规律
  2. 如果是线性关系,则可以利用
    • 相关系数:测度关系强度
      • 定义:根据样本数据计算的度量两个变量之间线性关系强度的统计量
      • 总体相关系数 \(\rho\):根据总体全部数据计算
      • 样本相关系数 r:根据样本数据计算\[r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^2-(\sum x)^2}\cdot\sqrt{n\sum y^2-(\sum y)^2}}\]
        • 按上式计算的相关系数也称为线性相关系数或称为Pearson相关系数
        • \(r\in[-1,1]\)
          • \(0<r\leq 1\):正线性相关
          • \(-1<r\leq 0\):负线性相关
          • r=0:不存在线性相关,而不是没有关系
          • r=1:完全正线性相关
          • r=-1:完全负线性相关
        • r具有对称性:\(r_{xy}=r_{yx}\)
        • r的数值大小与x和y的原点及尺度无关。改变x和y的数据原点及计量尺度,并不改变r的数值大小。
        • r不能用于描述非线性关系,r=0表示不存在线性相关,可能存在非线性关系。
        • 相关关系不等同与因果关系
      • 在相关系数的显著性通过的情况下:
        • \(|r|\geq 0.8\) 时,高度相关
        • \(5 \leq |r| < 0.8\) 时,中度相关
        • \(0.3 \leq |r| < 0.5\) 时,低度相关
        • \(|r| <0.3\) 时,可认为不相关
    • 显著性检验:判断该相关系数是否有效,即样本关系能否代表总体关系
      • r的抽样分布随总体系数\(\rho\)和样本量n的大小变化而变化
        • \(\rho\)为较大的正值时,r呈现左偏分布
        • \(\rho\)为较大的负值时,r呈现右偏分布
        • 只有当\(\rho\)接近0,且样本量n很大时,才能认为r是接近正态分布的随机变量,所以一般不采用正态检验
      • 采用t检验
        • 提出假设:\(H_0:\rho=0,H_1:\rho\neq0\)
        • 计算检验的统计量:\(t=|r|\sqrt{\frac{n-2}{1-\rho^2}}\backsim t(n-2)\)
        • \(|t|>t_{\alpha/2}\),拒绝原假设
      • 需要注意的是及时统计检验表明相关系数在统计上是显著的,也并不一定意味着两个变量之间就存在着重要的相关性,因为在大样本情况下,几乎总是导致相关系数显著。

而对于多元线性回归

\(R^2\)的平方根称为多重相关系数复相关系数,度量了因变量同k个自变量的相关程度.\[R^2=\frac{SSR}{SST}\]

回归分析

  • 因变量:被预测或解释的变量
  • 自变量:用来预测或解释因变量的一个或多个变量称为自变量
步骤 一元线性回归 多元线性回归
回归模型 定义:描述因变量y如何依赖于自变量x和误差项\(\epsilon\)的方程\[y=\beta_0+\beta_1x+\epsilon\] \(\beta_0和\beta_1\)是模型的参数,\(\beta_0+\beta_1x\)反映了由于自变量的变化引起的因变量的线性变化
\(\epsilon\)是被称为误差项的随机变量,反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性
假定:
该式称为理论回归模型,有以下几个主要的假定
1. 因变量y与因变量x之间具有线性关系 在重复抽样中,自变量x的取值是固定的
也就是说,对于每一个固定的x,y的取值都对应着一个分布
2. 误差项\(\epsilon\)是一个期望值为0的随机变量
所以\(E(y)=\beta_0+\beta_1x\)
3. 对于所有的x值,\(\epsilon\)的方差\(\sigma^2\)都相同
也就是对于固定的x值,y的方差都为\(\sigma^2\)
4. 误差项\(\epsilon\)是一个服从正态分布的随机变量且独立,即\(\epsilon\backsim N(0,\sigma^2)\) 所以,y之间也是独立的,y的变化有\(\sigma^2\)决定。
5. 对于任一个给定的x值,\(y\backsim N(\beta_0+\beta_1x,\sigma^2)\)
定义:描述因变量y如何依赖于自变量\(x_1,\cdots,x_k\)和误差项\(\epsilon\)的方程 \[y=\beta_0+\beta_1x_1+\cdots+\epsilon\] 假定
(1)\(E(\epsilon)=0\)
(2)对于任意\(x_1,\cdots,x_k\)的值,\(D(\epsilon)=\sigma^2\)
(3)误差项服从正态分布,且相互独立。
回归方程 定义:
描述因变量y的期望值如何依赖于自变量x的方程。\[E(y)=\beta_0+\beta_1x\] 参数含义
\(\beta_0\):截距,当x=0时y的期望值
\(\beta_1\):表示x每变动一个单位时,y的平均变动值
估计的回归方程
它是根据样本数据求出的回归方程的估计 \[\hat{y}=\hat{\beta}_0+\hat{\beta}_1x\] 因为总体回归参数未知,所以只能用样本去估计他们,含义与总体参数一致。
\(E(y)=\beta_0+\beta_1x_1+\cdots+\beta_kx_k\)
估计的多元回归方程
\[\hat{y}=\hat{\beta}_0+\hat{\beta}_1x_1+\cdots+\hat{\beta}_kx_k\]其中的\(\hat{\beta}_1,\cdots,\hat{\beta}_k\)称为偏回归系数
\(\hat{\beta}_1\)表示当\(x_2,\cdots,x_k\)不变时,\(x_1\)每变动一个单位因变量y的平均变动量,其他估计值类似。
参数估计 最小二乘法(最小平方法)
1. 定义:通过使因变量的观测值\(y_i\)与估计值\(\hat{y}_i\)之间的离差平方和达到最小来估计\(\beta_0和\beta_1\)的方法
2. 性质
1. 离差平方和最小(不代表是最佳直线
2. \(\beta_0\)\(\beta_1\)的估计量的抽样分布可知
3. 在某些条件下,参数的最小二乘估计量的抽样分布有较小的标准差
参数的估计公式
要使\(\sum(y_i-\hat{y}_i)^2=\sum(y_i-\hat{\beta}_0-\hat{\beta}_1x_i)^2最小\),则分别对\(\hat{\beta}_0和\hat{\beta}_1\)求偏导,得 \[\begin{cases} \hat{\beta}_1=\frac{n\sum_{i=1}^nx_iy_i-\sum_{i=1}^nx_i\sum_{i=1}^ny_i}{n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2} \\ \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x} \end{cases}\] 估计的回归方程必过点\((\bar{x},\bar{y})\),且对于一元回归来说,\(\hat{\beta}_1=r\)
同样利用最小二乘法以及求偏导的方法计算参数,但是比较复杂,所以没有公式.
显著性检验 线性关系的检验(模型的检验)
均方回归\(\frac{SSR}{k}=SSR/1\),k为自变量个数
均方残差 \(\frac{SSE}{n-k-1}=\frac{SSE}{n-2}\),k为自变量个数
统计量:\[F=\frac{MSR}{MSE}\backsim F(1,n-2)\] 检验步骤
1. 提出假设\(H_0:\beta_1=0\)两个变量之间的线性关系不显著
2. 计算检验统计量F:\(F=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE}\)
3. 做出决策。若\(F>F_{\alpha}\),拒绝H_0
回归系数的检验
检验回归系数\(\beta_1\)是否等于0 \[\hat{\beta}_1\backsim N(\beta_1,\sigma_{\hat{\beta}_1}^2=\frac{\sigma_\epsilon^2}{\sum x_i^2-\frac{1}{n}(\sum x_i)^2})\] \[s_{\hat{\beta}_1}=\frac{s_e}{\sqrt{\sum x_i^2}-\frac{1}{n}(\sum x_i)^2}\] \(s_e\)为误差项\(\epsilon\)的标准差 \(\sigma_{\epsilon}\)的估计,\(s_{\hat{\beta}_1}\)\(\hat{\beta}_1\)的标准差的估计 \[t=\frac{\hat{\beta}_1-\beta_1}{s_{\hat{\beta}_1}}\backsim t(n-2)\] 检验步骤
1. 提出检验\(H_0:\beta_1=0,H_1:\beta_1\neq0\)
2. 计算检验统计量t:\(t=\frac{\hat{\beta}_1}{s_{\hat{\beta}_1}}\)
3. 做出决策 若\(|t|>t_{\alpha/2}\),则拒绝\(H_0\)
在一元线性回归中,F检验与t检验是等价的
线性关系检验(总体显著性检验):检验因变量与多个自变量之间的线性关系是否显著,在k个自变量中,只要有一个自变量与因变量的线性关系显著,F检验就能通过。
检验步骤
1. 提出假设\(H_0:\beta_1=\cdots=\beta_k=0\),\(H_1:\beta_1,\cdots,\beta_k\)中至少有一个不等于0
2. 计算检验统计量F:\(F=\frac{SSR/k}{SSE/(n-k-1)}=\frac{MSR}{MSE}\backsim F(k,n-1-k)\)
3. 做出决策。若\(F>F_{\alpha}\),拒绝H_0
回归系数检验:对每个回归系数进行单独的检验,用于检验每个自变量对因变量的影响是否显著。
检验步骤
1. 提出检验,对任意\(\beta_i(i=1,\cdots,k)\),有\(H_0:\beta_i=0,H_1:\beta_i\neq0\)
2. 计算检验统计量t:\(t=\frac{\hat{\beta}_i}{s_{\hat{\beta}_i}}\backsim t(n-k-1)\)
3. 做出决策 若\(|t|>t_{\alpha/2}\),则拒绝\(H_0\)
回归系数\(\beta_i\)\(1-\alpha\)置信水平下的置信区间为:\[\beta_i\pm t_{\alpha/2}(n-k-1)s_{\hat{\beta}_i}\]
残差分析(误差项假定的判定) 残差(e):因变量的观测值\(y_i\)与根据估计的回归方程求出的预测值\(\hat{y}_i\)之差\(e_i=y_i-\hat{y}_i\)
方差相等的判断
以样本值为横轴,残差为纵值,绘制残差图
若方差相等,那么所有点都应落在一条水平带的中间
标准化残差(Pearson残差或半学生化残差)\(z_e\) \[z_{e_i}=\frac{e_i}{s_e}=\frac{y_i-\hat{y}_i}{s_e}\] 若误差项\(\epsilon\)服从同方差的正态分布,则标准化残差服从标准正态分布,则大约有95%的标准化残差在(-2,2)之间
没有差别
拟合优度 变差:y取值的波动称为变差
变差来自两个方面:
1. 自变量的取值不同造成的
2. 除x外的其他因素(如x对y产生的非线性影响、测量误差等)的影响
变差的衡量与分解
1. 总平方和 SST=\(\sum(y_i-\bar{y})^2\) \[SST=\sum(y_i-\hat{y}_i)^2+\sum(\hat{y}_i-\bar{y})^2\] 2. 回归平方和SSR=\(\sum(\hat{y}_i-\bar{y})^2\)
反映了y的总变差中由于x和y之间的线性关系引起的y的变化部分
3. 残差平方和(误差平方和)SSE=\(\sum(y_i-\hat{y}_i)^2\)
除了x对y的线性影响之外的其他因素引起的y的变化部分
判定系数\(R^2\) \[R^2=\frac{SSR}{SST}=\frac{\sum(\hat{y}_i-\bar{y})^2}{\sum(y_i-\bar{y})^2}=1-\frac{SSE}{SST}\] \(R^2\)测度了回归直线对观测数据的拟合程度\(R^2\)越大,表示回归直线的拟合程度越好
相关系数r实际上是判定系数的平方根
估计标准误差\(s_e\)
度量各实际观测点在直线周围的散布状况的一个统计量 \[s_e=\sqrt{\frac{\sum(y_i-\hat{y}_i)^2}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}\] 它是对误差项\(\epsilon\)的标准差\(\sigma\)的一个估计,从实际意义来看,它反映了用估计的回归方程预测因变量y时预测误差的大小(平均的估计误差)
和一元回归一样,多元回归中也有多重判定系数\(R^2\):\(R^2=\frac{SSR}{SST}\)
它是度量多元回归方程拟合程度的一个统计量,反映了因变量y的变差中被估计的回归方程所解释的比例。
多重判定系数的问题:
该值会随着自变量的增大而增大。
调整的多重判定系数\(R^2_a\):\[R_a^2=1-(1-R^2)(\frac{n-1}{n-k-1})\] \(R_a^2\)的值永远小于\(R^2\),并且不会随着自变量增加而越来越接近与1。
在多元回归分析中,常用调整的多重判定系数。它的意义为:在用样本量和模型中自变量的个数进行调整后,因变量的变差中,能被多元回归方程所解释的比例。
估计标准误差\(s_e\)
\[s_e=\sqrt{\frac{\sum(y_i-\hat{y}_i)^2}{n-k-1}}=\sqrt{\frac{SSE}{n-k-1}}=\sqrt{MSE}\] 其含义是根据自变量\(x_1,\cdots,x_k来预测因变量y时的平均预测误差\)
利用回归方程进行预测 点估计
1. 平均值的点估计
2. 个别值的点估计
直接根据公式计算,在点估计条件下,对于同一个\(x_0\),二者是相同的
区间估计
1.置信区间估计:求y的平均值的区间估计
\(\hat{y}_0=\hat{\beta}_0+\hat{\beta}_1x_0\)\(E(y_0)\)的估计值,但是不能期望精确等于,要想用\(\hat{y}_0\)推断\(E(y_0)\),必须考虑根据估计的回归方程得到\(\hat{y}_0\)的方差。
\(s_{\hat{y}_0}\)表示\(\hat{y}_0\)的标准差的估计量。 \[s_{\hat{y}_0}=s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}\]\(E(y_0)在1-\alpha\)置信水平下的置信区间为 \[\hat{y}_0\pm t_{\alpha/2}\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}\]\(x_0=\bar{x}\)时,\(\hat{y}_0\)的标准差的估计量最小,\(s_{\hat{y}_0}=s_e\sqrt{1/n}\),此时,估计是最精确的
y的个别的预测区间估计
是对x的一个给定值\(x_0\),求出y的一个个别值的区间估计.
个别值\(y_0\)的标准差的估计量,用\(s_{ind}\)表示 \[s_{ind}=s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}\] 则对于给定的\(x_0\),y的一个个别值\(y_0\)\(1-\alpha\)置信水平下的预测区间为 \[\hat{y}_0\pm t_{\alpha/2}\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}\]
点估计直接计算,置信区间与预测区间不介绍

多元线性回归中的多重共线性与变量取舍问题

多重共线性

当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。

多重共线性带来的主要麻烦是对单个回归系数的解释和检验,在求自变量的置信区间和预测区间时一般不会受其影响。但必须保证用于估计或预测的自变量的值是在样本数据的范围之内,因此,如果仅仅是为了估计或预测,可以将所有自变量都保留在模型中。

多重共线性的判别

  1. 模型中各对自变量之间显著相关
    • 计算模型中各对自变量之间的相关系数r
    • 判断r的显著性:\(t=|r|\sqrt{\frac{n-2}{1-\rho^2}}\backsim t(n-2)\),若\(|t|>t_{\alpha/2}\),则拒绝原假设,相关性显著。
  2. 当模型的线性关系检验(F检验)显著时,几乎所有回归系数\(\beta_i\)的t检验却不显著。
  3. 回归系数的正负号与预期的相反
  4. 容忍度和方差扩大因子
    • 某个自变量的容忍度=1-\(R_i^2\),\(R_i^2\)为改自变量为因变量,与其他k-1个自变量构建线性回归模型所得到的的判定系数,容忍度越小,多重共线性越严重,一般认为当容忍度小于0.1时,存在严重的多重共线性.
    • 方差扩大因子(VIF)=\(\frac{1}{1-R_i^2}\),是容忍度的倒数,认为VIF>10时,存在严重的多重共线性.

多重共线性的处理

  1. 将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关
  2. 如果要在模型中保存所有的自变量
    • 避免根据t统计量对单个参数值进行检验
    • 对因变量y值的推断(估计或预测)限定在自变量样本值的范围内。

变量选择与逐步回归

在模型构建之前对自变量进行一定的删选 * 使模型建立变得容易 * 使模型更具有可操作性 * 更容易解释

回归中的搜寻过程

在进行回归时,每次只增加一个变量,并且将新变量与模型中的变量进行比较,若新变量引入模型后以前的某个变量的t统计量变得不显著,这个变量就会被从模型中剔除,在这种情况下,回归分析就很难存在多重共线性的影响。

选择自变量的原则

对统计量进行显著性检验

检验根据:引入一个新的变量后,SSE应显著减少,使用F统计量作为判断标准。

变量选择的方法 步骤 特点
向前选择 1. 对每个自变量\(x_i\),分别与应变量构建一元线性回归模型,找F统计量最大的模型及其自变量\(x_i\),当然检验应该通过
2. 再将剩下的自变量与其组合,找组合变量构建的二元线性回归模型中F统计量最大的模型对应的自变量,反复进行,直到模型外的自变量加进行来后模型皆不显著,则该模型为最终模型
只要将某个自变量加到模型中,模型就一定会保存在模型中。即使t检验不通过
向后剔除 1. 先对因变量拟合包含所有k个自变量的线性回归模型。然后考察p(p < k) 个去掉一个自变量的模型的模型,使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除。及F值最小的变量。
2. 考察p-1个再去掉一个自变量的模型(这些模型中的每一个都有k-2个自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除,反复进行,直至剔除任一个变量都不会使模型的SSE显著减少。
逐步回归 逐步回归将两种方法结合起来。
1. 前两步与向前选择法相同。然后,再增加自变量,此时,在增加了一个自变量后,它会对模型中的所有变量进行考察,看看有没有剔除某个变量的可能性。如果在增加了某一个自变量后,前面的某个自变量对模型的贡献变得不显著,这个变量就会被剔除(t检验)
2. 逐步回归过程就是按此方法不停的增加变量并且考虑剔除以前增加的变量的可能性,直至F值不会显著变大
在前面赠加的自变量在后面的步骤中有可能被剔除,而在前面步骤中被剔除的自变量在后面的步骤中也可能重新进入模型

有季节性(不管有无趋势)|季节性预测法
1.季节多元回归模型
2.季节自回归模型
3.时间序列分解:
构建模型为\(Y_t=T_t\times S_t \times I_t\)
步骤
(1). 确定并分离季节成分。计算季节指数,以确定时间序列中的季节成分.然后将季节成分从时间序列中分离出去,即用每一个时间序列观察值除以相应的季节指数,消除季节性

上一页
下一页