分类数据分析

分类数据分析

对分类数据的分析的统计方法主要利用\(\chi^2\)分布。利用\(\chi^2\)分布来进行假设检验,\(\chi^2\)检验的应用包括两个方面:

  • 拟合优度检验:检验一个总体的各个类别之间是否有明显差异,比如性别。
  • 独立性检验:检验两个或以上的变量各自类别之间的关系,比如一个产品有生产地(甲乙丙)和产品质量(一二三),我们可以研究产品质量是否跟生产地有关。

\(\chi^2\)统计量的构建

\[\chi^2=\sum\frac{(f_0-f_e)^2}{f_e}\]

  • \(f_0\):观察值频率,每个类别组合下的频数,如性别为男的死亡人数。甲等质量一级的产品个数等
  • \(f_e\):期望值频数,先不对总体分类,先计算样本的总比例。比如总死亡比例,然后分别乘上类别数,则是各个类别的期望值频数。

假设检验的选择与理解

原假设为无影响或者变量之间相互独立,然后我们就可以根据样本比例与估计各个类别的比例,然后算得期望频数值,这个原假设是我们计算的基础,否则我们算不出期望频数值。

  • \(|f_0-f_e|\)越大,则类别越会对总体产生影响,卡方值越大,越会拒绝原假设(类别对总体无明显影响,观察值频数与期望值频数一致等)

  • 所以选择上限检验,当\(\chi^2>\chi^2_{\alpha}(R-1)\)时,选择拒绝原假设

拟合优度检验

单分类变量,df=R-1,自由度为分类数减一,本题自由度为1.

性别 存活 死亡 合计
374 1364 1738
344 126 470
合计 718 1490 2208
\(f_0\) \(f_e\) \(f_0-f_e\) \((f_0-f_e)^2\) \((f_0-f_e)^2/f_e\)
374 \[1738\times\frac{718}{2208}=565\] -191 36481 64.6
344 \[470\times\frac{718}{2208}=153\] 191 36481 238.4

\(\chi^2=303>\chi^2_{0.1}(1)=2.706\),拒绝原假设。

所以先计算总体比例,然后利用总体比例,乘上各个类别的样本数(n*p),在计算\(\chi^2\)值。

列联分析:独立性检验

拟合优度检验只能检验单个分类变量,而列联分析解决两个分类变量的问题。为了检验两个变量之间是否有相关性,即是否独立

原假设:独立
备则假设:不独立

df=(R-1)(C-1)

\(f_e=\frac{所在行的合计\times所在列的合计}{n}\)

把两个变量当成独立的,然后先考虑每个变量各自的各个类别的比例,然后同时发生的比例就等于各自相乘P(AB)=P(A)P(B).在乘上总样本数,则为期望频数值。上面的为简便公式.

列联表

列联表是由两个及两个以上的变量进行交叉分类的频数表。

地区 一级 二级 三级 合计
52 64 24 140
60 59 52 171
50 65 74 189
合计 162 188 150 500

独立性检验

判断列表中列出的变量是否相互独立,称为列联表的独立性检验。在二维列联表中独立性检验就是分析列联表中行变量和列变量是否相互独立。

地区 一级 二级 三级 合计 比例
52 64 24 140 140/500
60 59 52 171 171/500
50 65 74 189 189/500
合计 162 188 150 500
比例 162/500 188/50 150/500 1

\[\Downarrow\]

地区 一级 二级 三级 比例
\[500\times\frac{162}{500}\times\frac{140}{500}\] \[500\times\frac{188}{500}\times\frac{140}{500}\] \[500\times\frac{150}{500}\times\frac{140}{500}\] 140/500
\[500\times\frac{162}{500}\times\frac{171}{500}\] \[500\times\frac{188}{500}\times\frac{171}{500}\] \[500\times\frac{150}{500}\times\frac{171}{500}\] 171/500
\[500\times\frac{162}{500}\times\frac{189}{500}\] \[500\times\frac{188}{500}\times\frac{189}{500}\] \[500\times\frac{150}{500}\times\frac{189}{500}\] 189/500
比例 162/500 188/50 150/500 1

当我们确定了有相关性之后,就应该判断相关性的大小。我们把分类数据之间的相关性称为品质相关

相关性的衡量(多类别)

品质相关系数有以下几种。

相关系数 公式 描述 适用情况 特点 局限性
\[\psi相关系数\] \[\psi=\sqrt{\frac{\chi^2}{n}}\] \(\chi^2\)是按照统计量算出的卡方值
n为列表的总频数,即样本量
2 \(\times\) 2列联表 (1)\(\psi\in[0,1]\)
(2)完全独立应该有ad=bc
(3)ad-bc的大小衡量了相关性大小
(4)当b=c=0或a=d=0时,即\(\psi=1或-1\)时,完全相关
(5)\(\psi\)的符号没有实际意义
(6)\[\chi^2=\frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}\]
当列联表的行数或者列数大于2时,\(\psi\)系数将随着行数或者列数的变大而变大,且无上限。这时相关程度不够清晰.
\(列联相关系数\)
\(列联系数\)
\(c系数\)
\[c=\sqrt{\frac{\chi^2}{\chi^2+n}}\] \(\chi^2\)为计算的统计量的值
n为样本量
主要用于列联表大于2 \(\times\) 2的情况 (1)其可能的最大值依赖于列联表的函数和列数,并且随着R和C的增大而增大
(2)\(2\times2:c_{max}=0.7071\)
\(3\times3:c_{max}=0.8165\)
\(4\times4:c_{max}=0.87\)
(3)所以算出来的相关系数相对于[0,1]下的同数值应该是偏大的
对于不同的行和列计算的列联系数不便比较,除非两个列联表行数和列数一致。
\[V相关系数\] \[V=\sqrt{\frac{\chi^2}{n\times min[(R-1),(C-1)]}}\] \(R:行数\),\(C:列数\) 所有列联表皆适用 (1)\(\psi\)系数无上限,c系数取不到1,但是V系数对于任意R,C的列联表,都有\(V\in[0,1]\)
(2)当R或C等于2时,V=\(\psi\)
没有什么局限

实例分析

\(\chi^2\)=19.82,n=500,\(3\times3\),列联表 则\(\psi=\sqrt{\frac{\chi^2}{n}}=\sqrt{\frac{19.82}{500}}=0.199,c=\sqrt{\frac{\chi^2}{\chi^2+n}}=\sqrt{\frac{19.82}{19.82+500}}=0.195,V=\sqrt{\frac{\chi^2}{n\times min[(R-1),(C-1)]}}=\sqrt{\frac{19.82}{500\times2}}=0.141\)

对于\(\psi\)而言,3*3时,最大值大于1,此时0.192明显比较小 对于c而言,虽然此时的最大值不到1,为0.81,但是的相对来说0.195也还是一个较小的相关值,对于V而言,0.141是一个确定的较小的值。所以综上所述,两个变量之间的关联不大。

尝试一下

列联表的比较

不管是采取不同的系数,还是列联表的行列数不同,都会导致系数值的不同,所以如果要对不同的列联表的变量的相关程度进行比较时,行数,列数以及采用的系数都要相同,这样才具有可比性。

列联分析中应该注意的问题

  1. 一般默认,如果变量X和Y存在因果关系,则把自变量X放在列的位置,条件百分表的方向按自变量的方向计算(一列一列的计算,计算每一个自变量取值下另一变量的分布)
  2. 样本能否代表总体,即我们实际使用了样本比例去代替总体比例,如果我们的样本不是按照实际总体比例来按比例抽取,那么计算出的相关系数很可能是错误的。
  3. 当我们在抽取样本时,没有按照相应比例抽取,比如(因变量某个类别的样本量过少时,人为的增加该变量的样本量,打破了原有的分布)此时,如果我们仍然按照自变量的方向进行计算,百分表就会歪曲实际情况。此时我们应该按照应变量方向去计算,即调换行列。

卡方分布的期望准则

也就是应用卡方分布进行独立性检验时,应该满足一定要求,否则卡方检验可能得出错误的结论。

如果期望频数值过小,则卡方估计值将会不适当的增大,造成对\(\chi^2\)的高估,从而不适当的拒绝原假设.

  1. 每个单元中的期望频数不能过小。
  2. 当只有两个单元时,每个单元中的期望频数值不能小于5
  3. 当有超过两个单元时,应该有>20%的单元的期望频数值大于5时,才能应用\(\chi^2\)检验。
上一页
下一页