集中趋势 性质 分类数据 顺序数据 数值型数据 离中趋势 性质 分类数据 顺序数据 数值型数据
众数 众数`M_0`:一组数据中出现次数最多的变量值
  • 主要用于测度分类数据的 集中趋势,也可作为顺序数据以及数值型数据集中趋势的测度值。
  • 只有 在数据量较大的情况下,众数才有意义
  • 众数不受数据中极端值的影响
  • 众数可能不存在,也可能不止一个
  • 最多的类别 最多的顺序类别
  • 频率分布图中概率最大的点所对应的变量值
  • 如果是组矩型,则`M_0=L+\frac{\Delta_1}{\Delta_1+\Delta_2}d=U-\frac{\Delta_2}{\Delta_1+\Delta_2}d`
    `\Delta_1,\Delta_2`分别为该组的频数与下限相邻组,上限相邻组的频数之差,d为组距
    异众比率 非众数组的频数占总频数的比例`V_r` `V_r=\frac{\sum f_i-f_m}{\sum f_i}=1-\frac{f_m}{\sum f_i}` `\sum f_i`为变量值的总频数;`f_m`为众数组的频数
    异众比率越大,众数的代表性越差
    异众比率适合测度分类数据的离散程度 可以,计算差不多 可以,并不好计算异众比率
    中位数`M_e` 一组数据排序后处于中间位置上的变量值
    设一组数据为`x_1,x_2,\cdots,x_n`,按从小到大的顺序排序后为`x_{(1)},x_{(2)},\cdots,x_{(n)}`,则中位数为:$$\begin{cases} x_{(\frac{n+1}{2})} & n为奇数 \\ \frac{1}{2}\left(x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}\right) & n为偶数 \end{cases}$$
    不适用 主要用于测度顺序数据的集中趋势 如果是单项变量,则应该是首次累积频率超过`\frac{\sum f}{2}`的组所对应的变量值
    如果是组距型,`M_e=L+\frac{\sum f/2-S_{m-1}}{f_m}\times d`
    `S_{m-1}`为下限相邻组的累积频数,f_m为该组的频数,d为组距
    四分位差$M_d$(内距或四分间距) `Q_d=Q_U-Q_L`
  • 反映了中间50%数据的离散程度,越小,中间的数据越集中
  • 不受极值影响
  • 反映了中位数对一组数据的代表性
  • 主要用于测度顺序数据的离散程度
  • 不适合 主要用于测度顺序数据的离散程度 找到四分位点对应的值,计算四分位差
    四分位数
  • 上四分位数和下四分位数
  • 先排序然后确定位置
  • `Q_L位置=\frac{n}{4}`
  • `Q_U位置=\frac{3n}{4}`
  • 找到位置后,整数部分的数字+小数部分的数字乘上相邻数字的差值,比如`Q_L`位置为3.25,则`Q_L=x_{(3)}+0.25\times (x_{(4)}-x_{(3)})`
  • 不适用 与中位数类似 与中位数类似
    平均数$\bar{x}$(均值)
    • 集中趋势的主要测度值,主要适用于数值型数据,而不适用于分类数据和顺序数据。
    • 简单平均数:根据未分组数据计算的平均数称为简单平均数 `\bar{x}=\frac{x_1+x_2+\cdots+x_n}{n}=\frac{\sum_{i=1}^n x_i}{n}`
    • 加权平均数:根据分组数据计算的平均数称为加权平均数。
      设原始数据被分成k组,各组的组中值分别用`M_1,M_2,\cdots,M_k`表示,各组变量值出现的频数分别用`f_1,f_2,\cdots,f_k`,则`\bar{x}=\frac{M_1f_1+M_2f_2+\cdots+M_kf_k}{f_1+f_2+\cdots+f_k}=\frac{\sum_{i=1}^kM_i f_i}{n}`
    • 几何平均数:n个变量值乘积的n次方根,用G表示。$$G=\sqrt[n]{x_1\times x_2\times \cdots\times x_n}=\sqrt[n]{\prod_{i=1}^n x_i}$$ $$平均增长率\bar{G}=\sqrt[n]{\prod_{1=1}^n(1+G_i)}-1$$ 它主要用于计算平均比率。当所掌握的变量值本身是比率形式时,采用几何平均法计算平均比率更为合理。
      当所平均的各比率数值差别不大时,算数平均和几何平均相差不大,但如果相差较大时,二者的差别就很明显。
    不适用 不适用
  • 用各组的组中值代表各组的实际数据,使用这一代表值时假定各组数据在组内是均匀分布的。如果实际数据与这一假定相吻合,计算的结果是比较准确的,否则误差会比较大
  • 极差R(全距)
  • 测度数值型数据离散程度的主要方法
  • 计算简单,容易理解,易受极端值的影响 只利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。
  • $R=max(x_i)-min(x_i)$
    平均差$M_d$(平均绝对离差) 各变量值与其平均数离差绝对值的平均数 。
    平均差反映了每个数据与平均数的平均差异程度,能全面准确地反映一组数据的离散状况,平均差越大,说明数据的离散程度越大
    平均差含义较清楚,但是绝对值不好计算,应用较少
  • 测度数值型数据离散程度的主要方法
  • $$未分组:M_d=\frac{\sum_{i=1}^n |x_i-\bar{x}|}{n}$$ $$分组:M_d=\frac{\sum_{i=1}^k|M_i-\bar{x}|f_i}{n}$$
    方差$s^2$与标准差$s$
  • 方差:各变量值与其平均数离差平方平均数
  • 标准差:方差的平方根
  • 方差或标准差能较好的反映出数据的离散程度,是应用最广的离散程度的测度值
  • 因为标准差是有量纲的,它与变量值的计算单位相同,实际意义比方差清楚,因此,实际问题更多的使用标准差
  • 测度数值型数据离散程度的主要方法
  • 设样本方差为$s^2$ ,则样本方差的计算公式为$$未分组数据 s^2=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}$$ $$分组数据:s^2=\frac{\sum_{i=1}^k(M_i-\bar{x})^2f_i}{n-1}$$
    离散系数(变异系数)
  • 对于平均水平不同或计量单位不同的不同组别的变量值,不能用标准差直接比较其离散程度
  • 离散系数:一组数据的标准差与其相应的平均数之比$v_s=\frac{s}{\bar{x}}$
  • 主要用于比较不同样本数据的离散程度,离散系数大,说明数据的离散程度也大。
  • $v_s=\frac{s}{\bar{x}}$
  • 比如比较不同运动员的射击成绩
  • 标准分数(标准化值或z分数)
  • 变量值与其平均数的离差除以标准差后的值称为标准分数
  • 标准分数给出了一组数据中各数据的相对位置
  • 可以消除量纲的影响
  • 3$\sigma$准则,经验法则,只适合对称分布的数据:
    • 约有68%的数据在平均数$\pm$1个标准差的范围之内
    • 约有95%的数据在平均数$\pm$2个标准差的范围之内
    • 约有99%的数据在平均数$\pm$3个标准差的范围之内
  • 离群点:在$\pm$3个标准差之外的数据
  • 切比雪夫不等式:对任何分布形态的数据都适用。表示至少有$(1-1/k^2)$的数据落在$\pm$k个标准差内,k是大于1的任意值,但不一定是整数。
    • 至少有75%的数据在平均数$\pm$2个标准差之内的。
    • 至少有89%的数据在平均数$\pm$3个标准差之内的。
    • 至少有94%的数据在平均数$\pm$4个标准差之内的。
  • $$z_i=\frac{x_i-\bar{x}}{s}$$
  • 比如说英语成绩和数学成绩,我们不能单纯比较成绩,而要比较成绩在相应科目中的相对位置。
  • 峰态和偏态
    偏态
  • 偏态:数据分布对称性的测度
  • 偏态系数:SK,在计算SK时,将离差三次方的平均数除以$s^3$是为了将偏态系数转化为相对数。
    对称:SK=0。若SK明显不等于0,则分布不对称,SK越大,偏斜程度越大。
  • 未分组:$$SK=\frac{n\sum(x_i-\bar{x})^3}{(n-1)(n-2)s^3}$$
  • 分组:$$SK=\frac{\sum_{i=1}^{k}(M_i-\bar{x})^3 f_i}{ns^3}$$
  • 分布的分类
    • $SK>1或SK<-1$,高度偏态分布
    • $0.5\leq SK \leq 1$或$-0.5\leq Sk \leq -0.1$,中等偏态分布
    • 偏态系数越接近0,偏斜程度越小。大于0,右偏
  • 峰态
  • 对数据分布平峰或尖峰程度的测量。峰态通常与标准正态分布相较而言的,如果一组数据服从正态分布,则峰态系数的数值为0;若峰态系数明显不等于0,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布
  • 峰态系数:
    • 未分组:$$K=\frac{n(n+1)\sum (x_i-\bar{x})^4-3[\sum(x_i-\bar{x})^2]^2(n-1)}{(n-1)(n-2)(n-3)s^4}$$
    • 分组:$$K=\frac{\sum_{i=1}^k(M_i-\bar{x})^4 f_i}{ns^4}-3$$
  • 正态分布峰态系数为0,K>0,尖峰分布,数据分布更为集中,K<0,扁平分布,数据的分布越分散
  • 如果分组公式不减3,那么比较的数字从0改成3即可