重要公式回顾
排列:从n个不同元素中取出m个元素排成一列的可能情况有 A(n,m种。
组合:从n个不同元素中取出m个元素的所有组合的个数有C(n,m)种。
相关的一些性质如下:
重要概念回顾
下面介绍统计学里一些基础的概念
- 均值(平均值)
均值描述的是样本集合的中间点,它告诉我们的信息是有限的。
离散和连续的变量求均值的方式不同。
统计学里叫平均值,线代里叫均值。
- 方差
概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。
方差是衡量源数据和期望值相差的度量值。
- 标准差
标准差给我们描述的是样本集合的各个样本点到均值的距离之平均,是方差的开根号。
- 协方差
标准差和方差一般是用来描述一维数据的,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量。
当x=y时:
协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐越受女孩欢迎。如果结果为负值, 就说明两者是负相关,越猥琐女孩子越讨厌。如果为0,则两者之间没有关系,猥琐不猥琐和女孩子喜不喜欢之间没有关联,就是统计上说的“相互独立”。
- 协方差矩阵
协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算C(n,2)个协方差,那自然而然我们会想到使用矩阵来组织这些数据。如下图的三维:
可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。
- 相关系数
协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。
为此引入相关系数,它是研究变量之间线性相关程度的量。
若X和Y独立,则必有相关系数等于0 ,因而X和Y不相关;若X和Y不相关,则仅仅是不存在线性关系,可能存在其他关系
概率回顾
- 事件常忘性质
- 减法公式:对A、B任意事件,有P(A-B) = P(A) - P(AB)
- 加法公式:对A、B任意事件,有P(A ∪ \cup ∪B)= P(A) + P(B) - P(AB)
推广:
- 古典概率
样本空间有限、且每个结果的概率发生相同。
经典案例——抽样模型:
已知N件产品中有M件是不合格品,其余N-M件是合格品。
问1:不放回抽样n件中恰有k件不合格品的概率?
答案: P ( A ) = C M k C N − M n − k C N n P(A) = \frac{ C_M^kC_{N-M}^{n-k} }{ C_N^n } P(A)=CNnCMkCN−Mn−k
问2:放回抽样n件中恰有k件不合格品的概率?
答案: P ( A ) = C n k M k ( N − M ) n − k N n P(A) = \frac{ C_n^kM^k(N-M)^{n-k} }{ N^n } P(A)=NnCnkMk(N−M)n−k
- 几何概率
样本空间为一个区域,所以样本个数没有限制、且每个结果的概率发生相同。
- 条件概率
条件概率是指在某随机事件A发生的条件下,另一随机事件B发生的概率,记为P(B|A)
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A) = \frac{ P(AB)}{ P(A) } P(B∣A)=P(A)P(AB)
- 条件独立
P(AB) = P(A)P(B)
- 全概率公式与贝叶斯公式
全概率公式:设A1,A2,…,An为样本空间Ω的一个完备事件组(即互不相交,何为全集),且P(Ai)>0(i=1,2,…,n),B为任一事件,则
P ( B ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P(B) = \sum_{i=1}^n P(B|A_i)P(A_i) P(B)=i=1∑nP(B∣Ai)P(Ai)
P(A)也叫先验概率,通过原因求结果。
贝叶斯公式:设A1,A2,…,An为样本空间Ω的一个完备事件组(即互不相交,何为全集),且P(Ai)>0(i=1,2,…,n),B为任一事件,则
P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) ∑ i = 1 n P ( B ∣ A i ) P ( A i ) = P ( A i B ) P ( B ) P(A_i|B) = \frac{ P(B|A_i)P(A_i)}{ \sum_{i=1}^n P(B|A_i)P(A_i) } = \frac{ P(A_iB)}{ P(B)} P(Ai∣B)=∑i=1nP(B∣Ai)P(Ai)P(B∣Ai)P(Ai)=P(B)P(AiB)
P(A|B)也叫后验概率,已知结果,分析原因。
经典例子:
有三只箱子,第一个箱子中有四个黑球和一个白球,第二个箱子中有三个黑球和三个白球,第三个箱子中有三个黑球和五个白球.现随机取一个箱子,再从这个箱子中取一球,已知取到的是白球,则这个白球是属于第二个箱子的概率是多少?
答案:
P(Ai)= 1 3 \frac{1}{3} 31,表示取到第i个箱子。P(B)表示取到白球。
由全概率公式: P ( B ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P(B) = \sum_{i=1}^n P(B|A_i)P(A_i) P(B)=∑i=1nP(B∣Ai)P(Ai)可得
P(B) = 1 3 \frac{1}{3} 31( 1 5 \frac{1}{5} 51 + 1 2 \frac{1}{2} 21 + 5 8 \frac{5}{8} 85) = 53 120 \frac{53}{120} 12053
由贝叶斯公式可得
P(A2|B) = P ( A 2 B ) P ( B ) \frac{P(A_{2}B)}{P(B)} P(B)P(A2B) = P ( B ∣ A 2 ) P ( A 2 ) P ( B ) \frac{P(B|A_2)P(A_2)}{P(B)} P(B)P(B∣A2)P(A2) = 20 53 \frac{20}{53} 5320
- 分布函数
设X是一个随机变量,对于任意实数x,称函数:
F(x) = P(X ≤ \leq ≤x),x ∈ \in ∈(- ∞ \infty ∞,+ ∞ \infty ∞)
- 概率密度
对于连续型随机变量,改用概率密度函数来表示分布函数。
F(x) = ∫ − ∞ x f ( t ) d t \int_{-\infty}^xf(t)dt ∫−∞xf(t)dt
X是连续型随机变量,f(x)称为X的概率密度函数。
- n重伯努利试验
随机试验独立重复地进行n次,独立是指各次试验的结果互不影响,且该随机试验只有两种可能的试验结果。
离散型随机变量的五大分布
- 0-1分布
0-1分布就是n等于1的二项分布,表示只进行一次试验,且该事件发生的概率为p,则不发生概率为1-p,记作 B(1,p);
- 二项分布B(n,p)
二项分布指的是进行n次独立的试验,每一次试验就两种结果,yes或no,假定yes的概率为p,no概率为1-p。则进行n次试验,出现了k次yes的概率如下:
二项分布的期望E(X)=np
二项分布的方差D(X)=np(1-p)
- 泊松分布
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。
泊松定理:当n比p(发生一次的概率)大的多,二项分布可用泊松分布近似,这时 λ \lambda λ = np
泊松分布的期望和方差均为λ
- 几何分布
在n次伯努利试验中,试验k次才得到第一次成功的机率。详细地说,是:前k-1次皆失败,第k次成功的概率。
均值和方差如下:
- 超几何分布
描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)X服从超几何分布,记为X∼h(n,N,M)。
均值和方差如下:
连续型随机变量的三大分布
- 均匀分布
在区间(a,b)内的概率是一样的,在其他区间的概率为0;
若a = 0并且b = 1,所得分布U(0,1)称为标准均匀分布。
均值和方差如下:
- 指数分布
在区间0至无穷,它的概率服从λ指数的分布。
均值和方差如下:
特性:指数函数的一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。
- 正态分布
随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
均值为0,方差为1的正太分布又叫标准正态分布:
- 分位数
设X满足标准正太分布,对给定 α \alpha α(0< α \alpha α<1),满足
Φ(u α \alpha α) = ∫ − ∞ u a λ ( x ) d x \int_{-\infty}^{u_a} \lambda(x)dx ∫−∞uaλ(x)dx = P(X ≤ \leq ≤ u α \alpha α) = α \alpha α
则称 α \alpha α为随机变量X的 α \alpha α-分位数。
标准正太分布的分位数,当0.5< α \alpha α<1,可直接查表得相应分位数。
当 α \alpha α<0.5,即阴影面积全在x的负半轴,u α \alpha α = -u1- α \alpha α