数据的概括性度量
数据的概括性度量
要全面把握数据分布的特征,还需要找到反映数据分布特征的各个代表值。数据分布的特征可以从三个方面进行测度和描述:
- 一是分布的集中趋势
- 二是分布的离散程度
- 三是分布的形状,反映数据分布的偏态和峰态
- 集中趋势
- 指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
- 离散趋势
- 反映各变量值远离其中心值的程度
- 偏态
- 数据分布对称性的测度
- 峰态
- 对数据分布平峰或尖峰程度的测度
graph TD A(数据分布特征)-->B1(集中趋势) A(数据分布特征)-->B2(离散程度) A(数据分布特征)-->B3(分布的形状) B1-->C1(众数) B1-->C2(中位数) B1-->C3(平均数) B2-->D1(异众比率) B2-->D2(四分位差) B2-->D3(极差) B2-->D4(平均差) B2-->D5(方差或标准差) B2-->D6(离散系数) B3-->E1(偏态系数) B3-->E2(峰态系数)
集中趋势的特点与比较
众数:
- 不受极端值的影响
- 不具有唯一性
- 只有在数据量较多时才有意义
中位数:
- 不受极端值的影响
- 当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择
平均数:
- 当数据呈对称分布或接近对称分布时,这时选择平均数
- 易受数据极端值的影响