方差分析
方差分析(ANOVA)
方差分析:通过分析研究不同来源的变异对总变异的贡献大小,判断各组均值是否相等,从而确定可控因素对研究结果是否有显著影响。
本书:通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
从形式上看,方差分析是比较多个总体的均值是否相等,但本质上他所研究的是变量之间的关系。分类型自变量对数值型因变量的影响。例如变量之间有没有关系,关系的强度如何。
与假设检验相比:
- 差异
- 方差分析可以同时判断多个总体均值是否显著相等。t检验或z检验一次只能判断两个总体均值是否显著相等。
- 优势
- 方差分析将所有样本信息进行综合分析,仅需进行一次检验,提高了检验的效率以及可靠性。
- 判断多个总体均值是否相等时,方差分析的显著性水平可以人为规定具体数值,而t检验或z检验由于需要进行\(C_n^2\)次两两检验,虽然可以规定每次检验的显著性水平均为某一常数\(\alpha\),但在综合判断所有总体是否相等时,累计错误导致犯第Ⅰ类错误的概率相应增加,数值难以确定。而方差分析方法则是同时考虑所有的样本,因此排除了错误累积的概率
当\(\alpha=0.05\)时,连续做6次检验犯第Ⅰ类错误的概率为\(1-(1-\alpha)^6=0.265\),置信水平降低到0.735
方差分析基本概念介绍
方差分析及其相关术语
- 因素或因子(factor):所要检验的对象称为因素或因子
- 水平或处理(treatment):因素的不同表现
- 观测值:在每个因子水平下得到的样本数据称为观测值
单因素方差分析:在只有一个因素的方差分析中涉及到两个变量:一个是分类型自变量,一个是数值型因变量。
也就是一个将一个变量分成各个类别,然后衡量各个类别的某个指标。
R^2:衡量两个变量之间的关系强度。
方差分析的基本思想和原理
图形角度
如果因素对指标没有显著影响,那么各个水平的散点分布应该较相似,波动范围与中心值应该较相似。
仅仅从图形的角度还不能证明不同水平之间的指标值有显著差异,因为这种差异可能是抽样的随机性造成的。因此,需要更准确的方法进行来检验这种差异是否显著,也就是方差分析。
之所以叫方差分析是因为人们虽然感兴趣的是均值,但在判断均值之间是否有差异时需要借助于方差。其实方差揭示了数据的波动性,这种波动就是误差。这个名字也表示,他是通过数据误差来源的分析来判断不同总体之间的均值是否相等。进而分析自变量对因变量是否有显著影响。
- 误差分解的角度
误差 | 误差来源 | 解释 |
---|---|---|
组类误差 | 水平内部的数据误差 | 可以看成是随机因素的影响造成的,或者说是由抽样的随机性造成的 |
组间误差 | 不同水平之间的数据误差 | 可能由抽样本身形成的随机误差,也可能是水平本身的系统性因素造成的系统性误差。即随机误差和系统误差。它反映了不同样本之间的数据离散程度。 |
交互 | 当有两个或以上的因素时,二者不独立而产生的误差 | 除了因素的单独影响外,两个因素的搭配会对指标产生新的影响。 |
在方差分析中,数据的误差是用平方和来表示的。
平方和 | 表示 |
---|---|
SSA(SSR,SSC) 组间平方和(因素平方和) |
反映组间平方和大小 |
SSE 组内平方和(误差平方和或残差平方和) |
反映组内平方和的大小 |
SST 总平方和 |
反映全部数据误差大小的平方和 |
SSRC 交互 |
反映因素之间共同作用所产生的误差 |
方差分析中的基本假定
- 每个总体都应服从正态分布(则每个水平的观测值都是来自正态分布总体的简单随机样本,每个水平都服从正态分布。但是每个水平分布是否相同并不确定,这是我们需要检验的)
- 各个总体的方差\(\sigma^2\)必须相同。(假设每个水平的总体具有相同的方差)
- 观测值是独立的。(每个水平之间的观测值相互不影响)
根据假设我们知道,每个水平相互独立,服从正态分布,且方差形同,所以如果均值相同,那么就说明服从相同分布,且跟总体相同,则不存在系统误差,则组内误差和组间误差应该近似相等。
如果均值有显著差异,则服从不同分布,此时,则存在显著的系统误差,则应该有明显差异。
方差分析中问题的一般提法
设因素有k个水平,每个水平的均值分别用\(\mu_1,\mu_2,\cdots,\mu_k\)表示,要检验k个水平的总体(总体)的均值是否相等,需要提出如下假设:
\(H_0:\mu_1=\mu_2=\cdots=\mu_k\) 自变量对因变量没有显著影响
\(H_1:\mu_1,\mu_2,\cdots,\mu_k不全相等\) 自变量对因变量有显著影响
如果这种差异主要是系统误差,那么必然有均值不全相等,也就必然自变量对因变量有影响。
如果系统误差不明显,则均值必然相近,此时主要由随机误差引起,则自变量对因变量没有显著影响。
实际上,只要组间平方和不等于0,就表明两个变量之间有关系(只是是否显著的问题),当组间平方和比组内平方和大,而且大到一定程度时,就意味着两个变量之间的关系显著,大的越多,表明它们之间的关系就越强,反之,当组间平方和比组内平方和小时,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系越弱。
方差分析的步骤
方差分析 | 表格数据介绍 | 分析步骤 | 统计量 | \(R^2\) |
---|---|---|---|---|
单因素方差分析 | 因素用A表示 因素A的k个水平用\(A_1,\cdots,A_k\)来表示 \(x_{ij}(i=1,2,\cdots,k,j=1,2,\cdots,n)\)表示在第i个水平下的第j个观测值 从不同水平下抽取的样本数量可以相同,也可以不同,因为最终样本在计算组间平方和时会乘上各个水平的样本数量。 |
(1)提出假设 \(H_0:\mu_1=\mu_2=\cdots=\mu_k\) 自变量对因变量没有显著影响 \(H_1 :\mu_1,\mu_2,\cdots,\mu_k不全相等\) 自变量对因变量有显著影响 (2)构造检验的统计量 计算各样本均值\(x_i\),样本总均值\(\bar{\bar{x}}\),误差平方和\(SST、SSE、SSA\)。 (3) 计算样本统计量 \[F=\frac{SSA/(k-1)}{SSE/(n-k)}\] (4)统计决策 比较统计量F和\(F_\alpha(k-1,n-k)\)的值。若\(F>F_{\alpha}\),拒绝原假设,反之,不能拒绝原假设。 |
\[\bar{x_i}=\sum_{j=1}^{n_i}x_{ij}/n_i i=1,\cdots,k\] \[\bar{\bar{x}}=\frac{\sum_{i=1}^k\sum_{j=1}^{n_i}x_{ij}}{\sum_{i=1}^kn_i}=\frac{\sum_{i=1}^kn_i\bar{x}_i}{n}\] \[SST=\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij}-\bar{\bar{x}})^2,n-1\] \[SSE=\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2,n-k\] \[SSA=\sum_{i=1}^kn_i(\bar{x}_i-\bar{\bar{x}})^2,k-1\] \[MSA=SSA/(k-1)\] \[MSE=SSE/(n-k)\] | \[R^2=\frac{SSA}{SST}\] 表示自变量对因变量的解释达到了多少比例 |
无交互作用的双因素方差分析 | 有两个影响因素,并且假设相互独立 设行因素有k个水平,列因素有r个水平 \(x_{ij}\)可以看成从k个行水平和r个列水平所组合成的k*r个总体中所抽取的样本量为1的独立样本,服从方差相同的正态分布。 |
(1)提出假设 对行因素: \(H_0:\mu_1=\mu_2=\cdots=\mu_k\) 行因素对因变量没有显著影响 \(H_1 :\mu_1,\mu_2,\cdots,\mu_k不全相等\) 行因素对因变量有显著影响 对列因素: \(H_0:\mu_1=\mu_2=\cdots=\mu_r\) 列因素对因变量没有显著影响 \(H_1 :\mu_1,\mu_2,\cdots,\mu_r不全相等\) 列因素对因变量有显著影响 (2)构造检验的统计量 计算各样本均值\(x_{i\cdot},x_{\cdot j}\),样本总均值\(\bar{\bar{x}}\),误差平方和\(SST、SSE、SSR,SSC\)。 (3)计算样本统计量 \[F_R=\frac{SSR/(k-1)}{SSE/(k-1)(r-1)}\] \[F_C=\frac{SSC/r-1}{SSE/(k-1)(r-1)}\](4)统计决策 比较统计量\(F_R\)和\(F_\alpha(k-1,(k-1)(r-1))\)的值以及\(F_C\)和\(F_\alpha(r-1,(k-1)(r-1))\)。分别判断行因素和列因素有没有影响 |
\[\bar{x}_{i\cdot}=\sum_{j=1}^{r}x_{ij}/r i=1,\cdots,k\] \[\bar{x}_{\cdot j}=\frac{\sum_{i=1}^kx_{ij}}{k} j=1,\cdots,r\] \[\bar{\bar{x}}=\frac{\sum_{i=1}^k\sum_{j=1}^{r}x_{ij}}{kr}=\frac{\sum_{i=1}^kr\bar{x}_{i\cdot}}{n}\] \[SST=\sum_{i=1}^k\sum_{j=1}^{r}(x_{ij}-\bar{\bar{x}})^2,kr-1\] \[SSE=\sum_{i=1}^k\sum_{j=1}^{r}(x_{ij}-\bar{x}_{i\cdot}-\bar{x}_{\cdot j}+\bar{\bar{x}})^2,(k-1)(r-1)\] \[SSR=\sum_{i=1}^kr(\bar{x}_{i\cdot}-\bar{\bar{x}})^2,k-1\] \[SSC=\sum_{j=1}^rk(\bar{x}_{\cdot j}-\bar{\bar{x}})^2,r-1\] \[MSR=SSR/(k-1)\] \[MSC=SSC/(r-1) \] \[MSE=SSE/(n-k)\] | \[R^2=\frac{SSR+SSC}{SST}\] 表示行因素和列因素总共对因变量的解释达到了多少比例,如果要求分别达到了多少,则应该对单个因素进行单因素方差分析。 |
有交互作用的双因素方差分析 | 假设两个因素不独立,二者搭配在一起会对因变量产生一种新的效应,就需要考虑交互作用对因变量的影响。 \(x_{ijl}\)表示第i个行水平和第j个列水平的第l行的观测值 |
(1)提出假设 对行因素: \(H_0:\mu_1=\mu_2=\cdots=\mu_k\) 行因素对因变量没有显著影响 \(H_1 :\mu_1,\mu_2,\cdots,\mu_k不全相等\) 行因素对因变量有显著影响 对列因素: \(H_0:\mu_1=\mu_2=\cdots=\mu_r\) 列因素对因变量没有显著影响 \(H_1 :\mu_1,\mu_2,\cdots,\mu_r不全相等\) 列因素对因变量有显著影响 对交互作用: \(H_0:\mu_{ij}相等(i=1,\cdots,k,j=1,\cdots,r)\) 行列交互作用对因变量没有显著影响 \(\mu_{ij}不全相等,(i=1,\cdots,k,j=1,\cdots,r)\) 行列交互作用对因变量有显著影响 (2)构造检验的统计量 行因素的第i个水平的均值\(\bar{x}_{i\cdot}\) 列因素的第j个水平的均值\(\bar{x}_{\cdot j}\) 行因素的第i个水平和列因素的第j个水平组合的样本均值\(\bar{x}_{ij}\),样本总均值\(\bar{\bar{x}}\),误差平方和\(SST、SSE、SSR,SSC\)。 (3)计算样本统计量 \[F_R=\frac{SSR/(k-1)}{SSE/kr(m-1)}\] \[F_C=\frac{SSC/r-1}{SSE/kr(m-1)}\] \[F_{RC}=\frac{SSRC/(k-1)(r-1)}{SSE/kr(m-1)}\](4)统计决策 比较统计量\(F_R\)和\(F_\alpha(k-1,kr(m-1))\)的值以及\(F_C\)和\(F_\alpha(r-1,kr(m-1))\)。以及\(F_{RC}\)和\(F_{\alpha}((k-1)(r-1),kr(m-1))\),分别判断行因素和列因素以及二者的交互作用有没有影响 |
\[\bar{x}_{i\cdot}=\sum_{j=1}^{r}\sum_{l=1}^mx_{ijl}/rm i=1,\cdots,k\] \[\bar{x}_{\cdot j}=\frac{\sum_{i=1}^k\sum_{l=1}^mx_{ijl}}{km} j=1,\cdots,r\] \[\bar{x}_{ij}=\frac{\sum_{l=1}^mx_{ijl}}{m} i=1,\cdots,k,j=1,\cdots,r\] \[\bar{\bar{x}}=\frac{\sum_{i=1}^k\sum_{j=1}^{r}\sum_{l=1}^mx_{ijl}}{kr}\] \[SST=\sum_{i=1}^k\sum_{j=1}^{r}\sum_{l=1}^m(x_{ijl}-\bar{\bar{x}})^2,krm-1\] \[SSRC=m\sum_{i=1}^k\sum_{j=1}^r(\bar{x}_{ij}-\bar{\bar{x}})^2,(k-1)(r-1)\] \[SSR=rm\sum_{i=1}^k(\bar{x}_{i\cdot}-\bar{\bar{x}})^2,k-1\] \[SSC=km\sum_{j=1}^r(\bar{x}_{\cdot j}-\bar{\bar{x}})^2,r-1\] \[SSE=SST-SSR-SSC-SSRC,kr(m-1)\] \[MSR=SSR/(k-1)\] \[MSC=SSC/(r-1)\] \[MSRC=SSRC/(k-1)(r-1)\] \[MSE=SSE/kr(m-1)\] | 书本未介绍 |
单因素方差分析的多重比较
多重比较方法:通过对总体均值之间的配对来进一步检验到底哪些均值之间存在显著差异.
其中一种:最小显著差异方法(LSD)
- 第1步:提出假设:\(H_0:\mu_i=\mu_j;H_1:\mu_i\neq\mu_j\)
- 第2步:计算检验统计量:\(\bar{x}_i-\bar{x}_j\)
- 第3步:计算\(LSD=t_{\alpha/2}(n-k)\sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})}\)
- 第4步:根据显著性水平\(\alpha\)做出决策.如果\(|\bar{x}_i-\bar{x}_j|>LSD\),则拒绝原假设.
对于n个总体的单因素方差分析,总共要进行\(C_n^2\)次LSD检验