概率与概率分布
概率的前提知识
前面我们讲了收集,处理,展示和描述统计数据的一些基本方法,但是这只是对数据的粗浅的利用,与从数据中挖掘出规律性的东西还相去甚远。要想充分的利用统计数据,需要运用统计推断的方法。
推断统计就是在收集,整理观测样本数据的基础上,对有关总体进行推断。它的特点是依据随机的观测样本数据以及问题的假设和背景对未知事物做出的以概率形式表述的推断。
比如说我们之前只能判断数据类型,数值数据或分类数据等,得到数据的一些统计上的描述(图表的直观展示,曲线的趋势等),它的概括性的度量(离中趋势,集中趋势,以及偏度和峰度)。而现在我们可以去根据问题的假设和背景来模拟数据的分布,用数学模型来描述问题,来发现规律。我们可以根据概率来判断任何已知分布的变量任一事件发生的可能性大小。
试验与随机事件(事件)
- 为什么要从试验开始说起: 数据从何产生,样本从何产生,都是从无数的试验中产生。有了一次试验,那就会产生一个结果,这个结果就是随机事件的表现。
- 随机事件 随机事件对应于每一次试验,对于每一次试验,必然会产生结果,随机事件是对结果的描述,如果这个随机事件对应结果必然发生,那么就称为必然事件(\(\Omega\)),如果结果必然不发生,称为不可能事件(\(\Phi\)),如果描述的结果既有可能发生,也有可能不发生,就称为随机事件(用大写字母表示)。
- 基本事件(每一个实验的可能结果就是一个基本事件) 必然事件由全部的基本事件组合而成,随机事件至少包含一个基本事件
- 样本空间 所有的基本事件即所有的可能结果所组成的全体
好现在有了随机事件的概念,那么现在我们怎么去衡量这个随机性的大小呢?有很大的可能还是有很小的可能呢?
概率
概率的意义
衡量一个随机事件发生可能性的大小
概率的定义
定义种类 | 要求或原因 | 定义方式 |
---|---|---|
古典定义 | 从意义入手,发生可能性就是该事件包含的基本事件个数除以总的基本事件个数 要求每个基本事件发生的可能性大小相同 结果有限(可数)(否则分母无穷) |
\(\frac{事件包含基本事件个数}{总的基本事件个数}\) |
统计定义 | 要求该试验可以在相同条件下进行多次重复试验,如果n次重复实验中该事件所包含基本事件出现了m次,那么我们就可以以频率代替概率 | \(P(A)=\frac{m}{n}\) |
主观概率定义 | 基本事件不有限或者概率不能 试验不能重复进行 |
此时我们只能根据我们的经验来自己判断,比如一些新项目的成功可能性 |
现在我们可以描述一个随机事件的可能性大小,而一个随机事件的结果可能是任一个基本事件,我们可以以一个随机变量来表示这个随机事件,变量的变化代表了随机事件的变化,进而产生了概率的变化。该变量叫做随机变量。我们可以描述出随机变量的概率分布。
概率分布
- 两种类型的概率分布(理解)
- 离散型随机变量
- 连续型随机变量
离散型随机变量的分布
它的概率分布主要以列联表的形式
概率 | \(x_1\) | \(x_2\) |
---|---|---|
p | \(p_1\) | \(p_2\) |
离散型随机变量的常见分布
分布 条件 表达式 均值 方差 0-1分布 一次试验
只有两种结果,记为0,1\(P(X=1)=p\)
\(p(X=0)=1-p\)p p(1-p) 二项分布 进行n次独立重复试验
每次试验结果只有两种
也叫n重贝努利试验\(P(X=x)=C_n^xp^{x}(1-p)^{n-x}\) np np(1-p) 泊松分布 表示一定时间范围或指定的面积
或体积内某一事件出现次数的分布\(P(X=k)=\frac{\lambda^ke^{-x}}{k!}\)
\(\lambda\)的含义为给定时间间隔内事件的平均数\(\lambda\) \(\lambda\)
连续型随机变量的分布
不能计算某一点的概率,只能计算一定区间范围内的概率
- 概率密度函数\(f(x)\):
- \(\int^{+\infty}_{-\infty}f(x)dx=1\)
- \(f(x)>=0\)
- \(\int^{+\infty}_{-\infty}f(x)dx=1\)
- 概率分布\(F(x)\):
- \(F(x)=P(X<=x)=\int^{x}_{-\infty}f(x)dx\)
- 正态分布
- 正态分布: \[f(x)=\frac{e^{-\frac{(x-\mu)^2}{2\sigma^2}}}{\sigma\sqrt{2\pi}}\]
- 标准正态分布:
- \(\phi(x)=\frac{e^{-\frac{x^2}{2}}}{\sqrt{2\pi}}\)
- \(\Phi(x)=\int^{x}_{-\infty}\phi(t)dt\)
- 非标准正态分布X可以通过\(Y=\frac{X-\mu}{\sigma}\)变成标准正态分布
- \(\mu\)是对称轴
- \(\sigma\)决定了离散程度,越离散,越平坦
- 正态分布的应用
- 3\(\sigma\)准则的应用:0.9973
- 六西格玛准则:区间外的概率为十亿分之一。
- 漂移:由于种种随机因素的影响,任何流程实际运行中都会产生偏离目标值或者期望值的情况,我们把这种偏移称为漂移。漂移会导致落在区间外的概率增大,即区间外的值出现次数可能变多。