概率与概率分布
概率的前提知识
前面我们讲了收集,处理,展示和描述统计数据的一些基本方法,但是这只是对数据的粗浅的利用,与从数据中挖掘出规律性的东西还相去甚远。要想充分的利用统计数据,需要运用统计推断的方法。
推断统计就是在收集,整理观测样本数据的基础上,对有关总体进行推断。它的特点是依据随机的观测样本数据以及问题的假设和背景对未知事物做出的以概率形式表述的推断。
比如说我们之前只能判断数据类型,数值数据或分类数据等,得到数据的一些统计上的描述(图表的直观展示,曲线的趋势等),它的概括性的度量(离中趋势,集中趋势,以及偏度和峰度)。而现在我们可以去根据问题的假设和背景来模拟数据的分布,用数学模型来描述问题,来发现规律。我们可以根据概率来判断任何已知分布的变量任一事件发生的可能性大小。
试验与随机事件(事件)
- 为什么要从试验开始说起: 数据从何产生,样本从何产生,都是从无数的试验中产生。有了一次试验,那就会产生一个结果,这个结果就是随机事件的表现。
- 随机事件
随机事件对应于每一次试验,对于每一次试验,必然会产生结果,随机事件是对结果的描述,如果这个随机事件对应结果必然发生,那么就称为必然事件(
),如果结果必然不发生,称为不可能事件( ),如果描述的结果既有可能发生,也有可能不发生,就称为随机事件(用大写字母表示)。 - 基本事件(每一个实验的可能结果就是一个基本事件) 必然事件由全部的基本事件组合而成,随机事件至少包含一个基本事件
- 样本空间 所有的基本事件即所有的可能结果所组成的全体
好现在有了随机事件的概念,那么现在我们怎么去衡量这个随机性的大小呢?有很大的可能还是有很小的可能呢?
概率
概率的定义
定义种类 | 要求或原因 | 定义方式 |
---|---|---|
古典定义 | 从意义入手,发生可能性就是该事件包含的基本事件个数除以总的基本事件个数 要求每个基本事件发生的可能性大小相同 结果有限(可数)(否则分母无穷) |
|
统计定义 | 要求该试验可以在相同条件下进行多次重复试验,如果n次重复实验中该事件所包含基本事件出现了m次,那么我们就可以以频率代替概率 | |
主观概率定义 | 基本事件不有限或者概率不能 试验不能重复进行 |
此时我们只能根据我们的经验来自己判断,比如一些新项目的成功可能性 |
现在我们可以描述一个随机事件的可能性大小,而一个随机事件的结果可能是任一个基本事件,我们可以以一个随机变量来表示这个随机事件,变量的变化代表了随机事件的变化,进而产生了概率的变化。该变量叫做随机变量。我们可以描述出随机变量的概率分布。