集中趋势 |
性质 |
分类数据 |
顺序数据 |
数值型数据 |
离中趋势 |
性质 |
分类数据 |
顺序数据 |
数值型数据 |
众数 |
众数`M_0`:一组数据中出现次数最多的变量值主要用于测度分类数据的
集中趋势,也可作为顺序数据以及数值型数据集中趋势的测度值。 只有
在数据量较大的情况下,众数才有意义
众数不受数据中极端值的影响
众数可能不存在,也可能不止一个
|
最多的类别 |
最多的顺序类别 |
频率分布图中概率最大的点所对应的变量值如果是组矩型,则`M_0=L+\frac{\Delta_1}{\Delta_1+\Delta_2}d=U-\frac{\Delta_2}{\Delta_1+\Delta_2}d` `\Delta_1,\Delta_2`分别为该组的频数与下限相邻组,上限相邻组的频数之差,d为组距 |
异众比率 |
非众数组的频数占总频数的比例`V_r` `V_r=\frac{\sum f_i-f_m}{\sum
f_i}=1-\frac{f_m}{\sum f_i}` `\sum f_i`为变量值的总频数;`f_m`为众数组的频数 异众比率越大,众数的代表性越差 |
异众比率适合测度分类数据的离散程度 |
可以,计算差不多 |
可以,并不好计算异众比率 |
中位数`M_e` |
一组数据排序后处于中间位置上的变量值 设一组数据为`x_1,x_2,\cdots,x_n`,按从小到大的顺序排序后为`x_{(1)},x_{(2)},\cdots,x_{(n)}`,则中位数为:$$\begin{cases} x_{(\frac{n+1}{2})} & n为奇数 \\ \frac{1}{2}\left(x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}\right) & n为偶数 \end{cases}$$ |
不适用 |
主要用于测度顺序数据的集中趋势 |
如果是单项变量,则应该是首次累积频率超过`\frac{\sum f}{2}`的组所对应的变量值 如果是组距型,`M_e=L+\frac{\sum f/2-S_{m-1}}{f_m}\times d` `S_{m-1}`为下限相邻组的累积频数,f_m为该组的频数,d为组距 |
四分位差$M_d$(内距或四分间距) |
`Q_d=Q_U-Q_L` 反映了中间50%数据的离散程度,越小,中间的数据越集中不受极值影响反映了中位数对一组数据的代表性主要用于测度顺序数据的离散程度 |
不适合 |
主要用于测度顺序数据的离散程度 |
找到四分位点对应的值,计算四分位差 |
四分位数 |
上四分位数和下四分位数
先排序然后确定位置
`Q_L位置=\frac{n}{4}`
`Q_U位置=\frac{3n}{4}`
找到位置后,整数部分的数字+小数部分的数字乘上相邻数字的差值,比如`Q_L`位置为3.25,则`Q_L=x_{(3)}+0.25\times (x_{(4)}-x_{(3)})`
|
不适用 |
与中位数类似 |
与中位数类似 |
|
|
|
|
|
平均数$\bar{x}$(均值) |
-
集中趋势的主要测度值,主要适用于数值型数据,而不适用于分类数据和顺序数据。
-
简单平均数:根据未分组数据计算的平均数称为简单平均数 `\bar{x}=\frac{x_1+x_2+\cdots+x_n}{n}=\frac{\sum_{i=1}^n x_i}{n}`
-
加权平均数:根据分组数据计算的平均数称为加权平均数。
设原始数据被分成k组,各组的组中值分别用`M_1,M_2,\cdots,M_k`表示,各组变量值出现的频数分别用`f_1,f_2,\cdots,f_k`,则`\bar{x}=\frac{M_1f_1+M_2f_2+\cdots+M_kf_k}{f_1+f_2+\cdots+f_k}=\frac{\sum_{i=1}^kM_i f_i}{n}`
-
几何平均数:n个变量值乘积的n次方根,用G表示。$$G=\sqrt[n]{x_1\times x_2\times \cdots\times x_n}=\sqrt[n]{\prod_{i=1}^n x_i}$$ $$平均增长率\bar{G}=\sqrt[n]{\prod_{1=1}^n(1+G_i)}-1$$ 它主要用于计算平均比率。当所掌握的变量值本身是比率形式时,采用几何平均法计算平均比率更为合理。
当所平均的各比率数值差别不大时,算数平均和几何平均相差不大,但如果相差较大时,二者的差别就很明显。
|
不适用 |
不适用 |
用各组的组中值代表各组的实际数据,使用这一代表值时假定各组数据在组内是均匀分布的。如果实际数据与这一假定相吻合,计算的结果是比较准确的,否则误差会比较大
|
极差R(全距) |
测度数值型数据离散程度的主要方法
计算简单,容易理解,易受极端值的影响
只利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。
|
$R=max(x_i)-min(x_i)$ |
平均差$M_d$(平均绝对离差) |
各变量值与其平均数离差绝对值的平均数 。 平均差反映了每个数据与平均数的平均差异程度,能全面准确地反映一组数据的离散状况,平均差越大,说明数据的离散程度越大 平均差含义较清楚,但是绝对值不好计算,应用较少
测度数值型数据离散程度的主要方法
|
$$未分组:M_d=\frac{\sum_{i=1}^n |x_i-\bar{x}|}{n}$$ $$分组:M_d=\frac{\sum_{i=1}^k|M_i-\bar{x}|f_i}{n}$$
|
方差$s^2$与标准差$s$ |
方差:各变量值与其平均数离差平方平均数
标准差:方差的平方根
方差或标准差能较好的反映出数据的离散程度,是应用最广的离散程度的测度值
因为标准差是有量纲的,它与变量值的计算单位相同,实际意义比方差清楚,因此,实际问题更多的使用标准差
测度数值型数据离散程度的主要方法
|
设样本方差为$s^2$ ,则样本方差的计算公式为$$未分组数据 s^2=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}$$ $$分组数据:s^2=\frac{\sum_{i=1}^k(M_i-\bar{x})^2f_i}{n-1}$$ |
离散系数(变异系数) |
对于平均水平不同或计量单位不同的不同组别的变量值,不能用标准差直接比较其离散程度
离散系数:一组数据的标准差与其相应的平均数之比$v_s=\frac{s}{\bar{x}}$
主要用于比较不同样本数据的离散程度,离散系数大,说明数据的离散程度也大。
|
$v_s=\frac{s}{\bar{x}}$
比如比较不同运动员的射击成绩
|
标准分数(标准化值或z分数) |
变量值与其平均数的离差除以标准差后的值称为标准分数
标准分数给出了一组数据中各数据的相对位置
可以消除量纲的影响
3$\sigma$准则,经验法则,只适合对称分布的数据:
- 约有68%的数据在平均数$\pm$1个标准差的范围之内
- 约有95%的数据在平均数$\pm$2个标准差的范围之内
- 约有99%的数据在平均数$\pm$3个标准差的范围之内
离群点:在$\pm$3个标准差之外的数据
切比雪夫不等式:对任何分布形态的数据都适用。表示至少有$(1-1/k^2)$的数据落在$\pm$k个标准差内,k是大于1的任意值,但不一定是整数。
-
至少有75%的数据在平均数$\pm$2个标准差之内的。
-
至少有89%的数据在平均数$\pm$3个标准差之内的。
-
至少有94%的数据在平均数$\pm$4个标准差之内的。
|
$$z_i=\frac{x_i-\bar{x}}{s}$$
比如说英语成绩和数学成绩,我们不能单纯比较成绩,而要比较成绩在相应科目中的相对位置。
|
峰态和偏态 |
偏态 |
偏态:数据分布对称性的测度
偏态系数:SK,在计算SK时,将离差三次方的平均数除以$s^3$是为了将偏态系数转化为相对数。
对称:SK=0。若SK明显不等于0,则分布不对称,SK越大,偏斜程度越大。
未分组:$$SK=\frac{n\sum(x_i-\bar{x})^3}{(n-1)(n-2)s^3}$$
分组:$$SK=\frac{\sum_{i=1}^{k}(M_i-\bar{x})^3 f_i}{ns^3}$$
分布的分类
- $SK>1或SK<-1$,高度偏态分布
- $0.5\leq SK \leq 1$或$-0.5\leq Sk \leq -0.1$,中等偏态分布
- 偏态系数越接近0,偏斜程度越小。大于0,右偏
|
峰态 |
对数据分布平峰或尖峰程度的测量。峰态通常与标准正态分布相较而言的,如果一组数据服从正态分布,则峰态系数的数值为0;若峰态系数明显不等于0,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布
峰态系数:
- 未分组:$$K=\frac{n(n+1)\sum (x_i-\bar{x})^4-3[\sum(x_i-\bar{x})^2]^2(n-1)}{(n-1)(n-2)(n-3)s^4}$$
- 分组:$$K=\frac{\sum_{i=1}^k(M_i-\bar{x})^4 f_i}{ns^4}-3$$
正态分布峰态系数为0,K>0,尖峰分布,数据分布更为集中,K<0,扁平分布,数据的分布越分散
如果分组公式不减3,那么比较的数字从0改成3即可
|