统计学基础概念
第一章 导论
- 什么是统计学
- 统计学的应用领域
- 统计学的基本概念
统计学的概念及其应用领域
- 统计学的定义
-
定义
统计学是收集,处理,分析,解释数据并从中数据中得出结论的科学。
数据收集就是取得统计数据,数据处理就是将数据用图表等形式展示出来;数据分析就是选择适当的统计方法研究数据,并从数据中提取有用的信息从而得出结论。 - 数据分析方法的分类
- 统计学的应用领域
- 企业发展
- 产品质量管理
- 市场研究
- 财务分析
- 经济预测
- 人力资源管理
利用统计方法可以化繁为简;数据分析的真正目的是从数据中找出规律,从数据中寻找启发。统计非万能,它只能帮助我们发现规律,对于规律的解释还需要用到相关专业知识。
统计数据的类型
统计数据 统计数据就是对数据进行测量的结果
- 按照采用的计量尺度的不同
类型 | 定义 | 举例 |
---|---|---|
分类数据 | 只能归于某一类别的非数字型数据 | 如性别,但是可以用数字代码来表示各个类别 |
顺序数据 | 只能归于某一有序类别的非数字型数据 | 顺序数据也是类别,但是类别是有序的。 |
数值型数据 | 按数字尺度测量的观察值,其结果表现为具体的数值 |
分类数据和顺序数据说明的是事物的品质特征,通常使用文字来表述的,其结果均表现为类别,因而也可统称为定性数据或品质数据;数值型数据说明的是现象的数量特征,通常使用数值来表现的,因此也可称为定量数据或数量数据。
- 按照数据的收集方法的不同
类型 | 定义 | 举例 |
---|---|---|
观测数据 | 通过调查或观测收集到的统计数据,这类数据是在没有对事物认为控制的条件下得到的 | 有关社会经济现象的统计数据几乎都是观测数据 |
实验数据 | 在实验中控制实验对象而收集到的数据 | 自然科学领域的大多数数据为实验数据 |
- 按照被描述的现象与时间的关系
类型 | 定义 | 举例 |
---|---|---|
截面数据 | 在相同或近似相同的时间点上收集到的数据,这类数据通常是在不同的空间获得的,用于描述某一现象在某一时刻的变化情况 | 2021年我国各地区的国内生产总值 |
时间序列数据 | 在不同时间收集到的数据 | 按时间顺序收集到的,用于描述现象随时间变化的情况 |
区分数据的类型时十分重要的,因为对不同类型的数据需要采用不同的统计方法来处理和分析。
类型 | 方法 |
---|---|
分类数据 | 各组的频数或频率,计算其众数或异众比率,进行拟合优度检验,列联表分析和\(\chi^2\)检验等 |
顺序数据 | 中位数,四分位差,等级相关系数 |
数值型数据 | 统计量,参数估计,假设检验 |
统计中的重要概念
- 总体:包含所研究的全部个体(数据)的集合,它通常由所研究的
一些个体组成。(所以它指的是全体研究对象,研究对象的一些属性或特征是研究的内容,比如研究小学生的平均身高,那么总体是全部小学生,研究的内容是身高)
- 个体:组成总体的每个元素称为个体
- 总体范围:也就是全体研究对象到底是谁
- 一批灯泡的寿命:总体就是这批灯泡
- 一种饮料是否受消费者喜欢:那么总体就是该饮料的消费者,这个总体范围就非常不好确定。
- 当总体的范围难以确定时,可根据研究的目的来定义总体
- 总体的分类:根据其所包含的单位数目是否可数可以分为有限总体和无限总体
- 有限总体:总体的范围能够明显确定。而且范围是有限可数的。如一批待检验的灯泡
- 无限总体: 总体包括的元素是无限的、不可数的。由实验数据构成的总体是一个无限总体,因为实验就是可以无限进行的。
- 总体分为有限总体和无限总体主要是为了判别在抽样中每次抽取是否独立。有限总体抽取一个单位后,总体元素减少一个,会影响第二次的抽样结果,因此每次抽取是不独立的。而无限总体是独立的,则无限总体中抽取的样本可以认为是独立同分布。
通常情况下,统计上的总体是一组观测数据,而不是一群人或一些物品的集合。,有限总体就是数据是可数的,无限总体就是数据是不可数的。在统计推断中通常是针对无限总体的。
案例 | 总体1 | 总体2 | 分类 |
---|---|---|---|
一批灯泡的寿命 | 一批灯泡 总体范围:这一批灯泡 |
一批灯泡的寿命 总体范围:这一批灯泡的寿命集合 |
有限总体 |
灯泡的寿命 | 灯泡 总体范围:所有的灯泡 |
灯泡的寿命 总体范围:\([0,+\infty]\) |
无限总体 |
- 样本:从总体中抽取的一部分元素的集合
- 样本量:构成样本的元素的数目
- 抽样的目的:根据样本提供的信息推断总体的特征。如果抽样并不比直接用总体方便,那么就无需抽样了。
- 参数:参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值
- 总体平均数\(\mu\)
- 总体标准差\(\sigma\)
- 总体比例\(\pi\)
- 由于总体数据通常是不知道的,所以参数是一个未知的常数.所以才进行抽样,根据样本计算出某些值,然后估计总体参数。
- 统计量:统计量是用来描述样本特征的概括性数字度量。
- 统计量是样本的函数
- 样本平均数:\(\bar{x}\) ,用样本平均数\(\bar{x}\)去估计总体平均数\(\mu\)
- 样本标准差:\(s\) 用样本标准差\(s\)去估计总体标准差\(\sigma\)
- 样本比例:\(p\) 用样本比例(p)去估计总体比例(\(\pi\))
变量
变量:是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化。
变量的具体取值称为变量值
统计数据就是统计变量的某些取值
种类 | 定义 | 举例 |
---|---|---|
分类变量 | 说明事物类别的一个名称,取值是分类数据 | “性别” |
顺序变量 | 说明事物有序类别的有一个名称,取值是顺序数据 | “产品等级”,“受教育程度” |
数值型变量 | 说明事物数字特征的一个名称,其取值是数值型数据 根据取值的不同,又可以分为离散型变量和连续型变量。 离散型变量:只能取可数值的变量。它只能取有限个值,而且其取值都以整位数断开,可以一一列举 连续型变量:是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举。 |
年龄,企业数 |
也可以从其他角度对变量进行分类,比如随机变量和非随机变量,经验变量和理论变量
经验变量:描述的是周围环境中可以观察到的事物
理论变量:统计学家用数学方法构造出来的一些变量,比如z统计量,t统计量,\(\chi^2\)统计量、F统计量等都是理论变量。