自然语言处理学习笔记-lecture2-数学基础2-概率论

最新推荐文章于 2024-10-03 17:11:04 发布

尔呦

最新推荐文章于 2024-10-03 17:11:04 发布

阅读量236

点赞数

分类专栏：自然语言处理文章标签：概率论自然语言处理学习

本文链接：https://blog.csdn.net/weixin_44994838/article/details/126790839

版权

自然语言处理专栏收录该内容

15 篇文章 5 订阅

订阅专栏

概率论

随机试验

具备以下三个特点的试验称为随机试验:

可以在相同的条件下重复地运行;
每次试验的可能结果可能不止一个，并且能事先明确试验的所有可能结果;
进行一次试验之前不能确定哪一个结果会出现。

以下是一些随机试验的例子:

抛一枚硬币，观察正面 $H$ 、反面 $T$ 出现的情况。
抛一颗骰子，观察出现的点数。
在一批灯泡里任意抽取一只，测试它的寿命。

样本空间

对于随机试验，尽管在每次试验之前不能预知试验的结果，但试验的所有可能结果组成的集合是已知的。我们将随机试验 $E$ 的所有可能结果组成的集合称为 $E$ 的样本空间，记为 $S$ 。样本空间中的元素，称为样本点。
例如，给定以下随机试验

$E_1$ :抛一枚硬币，观察正面 $H$ 、反面 $T$ 出现的情况。
$E_2$ :抛一颗骰子，观察出现的点数。
$E_3$ :在一批灯泡里任意抽取一只，测试它的寿命。
对应的样本空间是:
$S_1:\{H,T\}$
$S_2:\{1,2,3,4,5,6\}$
$S_3:\{t|t \geq 0\}$

随机事件

试验 $E$ 的样本空间 $S$ 的子集称为 $E$ 的随机事件，简称为事件。
例如，令“将一枚硬币抛掷两次，观察正面 $H$ 、反面 $T$ 出现的情况”是一个随机试验 $E$ ，则其样本空间总共包含四个元素:
$S = \{HH, HT, TT, TH\}$
我们可以定义一个事件“第一次出现的是 $H$ ”，即
$A1 = \{HH, HT\}$
还可以定义另一个事件“两次出现的是同一面”，即
$A2 = \{HH, TT\}$
显然， $A_1$ 和 $A_2$ 都是样本空间的子集。

概率

设 $E$ 是随机试验， $S$ 是样本空间。对于 $E$ 的每一个事件 $A$ 赋予一个实数，记为 $P (A)$ ，称为事件 $A$ 的概率。概率必须满足以下条件:

非负性:对于每一个事件 $A$ ，有 $P (A) \geq 0$ ;
规范性:对于必然发生的事件 $S$ ，有 $P (S) = 1$ ;
可列可加性:设 $A_1 、A_2 、...$ 是两两互不相容的事件，即对于 $A_i \bigcap A_j =\emptyset(i \neq j)$ ，有 $P(A_1 \bigcup A_2 \bigcup ...)=P(A_1)+P(A_2)+...$ 。

令 $A$ 和 $B$ 为任意两个事件， $A B$ 表示两个事件同时发生，以下公式成立:
$\bigcup B) = P(A) + P(B) − P(AB)$
对于前面抛掷两次硬币的例子，如果 $A$ 表示“第一次是 $H$ ”， $B$ 表示“两次结果都一样”，那么 $A B$ 表示“两次都是 $H$ ”。

等可能概型

等可能概型是指符合以下两个条件的随机试验:

试验的样本空间只能包含有限个元素;
试验中每个基本事件(即每个结果)发生的可能性基本相同。

例如，一个口袋里装有6只球，其中有4只白球和2只红球。从袋中取球两次，每次随机地取一只，假设每只球都有相等概率被抽中。第一次取一球不放回袋中，第二次从剩余的球中再取一球。计算:(1)取到的两只球都是白球的概率，(2)取到的两只球至少有一只是白球的概率。
首先计算两只球都是白球的概率: $(4/6) \times (3/5) = 2/5$ 。然后，先计算两只球都是红球的概率: $(2/6) \times (1/5) = 1/15$ ，然后可以得到取到的两只球至少有一只是白球的概率: $1 - (1/15) = 14/15$ 。

条件概率

设A和B是两个事件，且P(A) > 0，称
$\frac{P(AB)}{P(A)}$
为在事件 $A$ 发生的条件下事件 $B$ 发生的条件概率。不难验证，条件概率符合概率定义中的三个条件:

非负性:对于每一个事件 $B$ ，有 $P (B ∣ A) \geq 0$ ;
规范性:对于必然发生的事件 $S$ ，有 $P (S ∣ A) = 1$ ;
可列可加性:设 $B_1 、B_2 、...$ 是两两互不相容的事件，则有：
$P(\bigcup_{i=1}^\infty B_i|A) = \sum_{i=1}^\infty P(B_i|A)$

例如，一个口袋里装有6只球，其中有4只白球和2只红球。从袋中取球两次，每次随机地取一只，假设每只球都有相等的概率被抽中。第一次取一球不放回袋中，第二次从剩余的球中再取一球。设事件 $A$ 为“第一次取到白球”，事件 $B$ 为“第二次取到白球”，计算条件概率 $P (B ∣ A)$ 。
首先计算 $P (A)$ 。由于开始口袋中有6只球，其中有4只白球，因此第一次取到白球的概率 $P (A) = 4/6$ 。然后计算 $P (A B)$ ，即事件“两次都抽到白球”的概率:
$\frac{4}{6} \times \frac{3}{5} = \frac{2}{5}$
因此，条件概率计算如下:
$\frac{P(AB)}{P(A)} = \frac{2}{5} \times \frac{6}{4} = \frac{3}{5}$

全概率公式

设 $S$ 为试验 $E$ 的样本空间， $B_1, B_2, ..., B_n$ 为事件 $E$ 的一组事件，如果以下两个条件成立

$B_i \bigcap B_j = \emptyset,i \neq j,i,j = 1,\cdots, n$
$B_1 \bigcup B_2 \bigcup \cdots \bigcup B_n = S$

则称 $B_1,B_2,\cdots,B_n$ 为样本空间 $S$ 的一个划分。
例如，试验 $E$ “掷一颗骰子观察其点数”样本空间为 $S = \{1, 2, 3, 4, 5, 6\}$ ，则 $B_1 = \{1, 2, 3\}，B_2 = \{4, 5\}和B_3 = \{6\}$ 是 $S$ 的一个划分。
设 $A$ 是试验 $E$ 的一个事件， $B_1, B_2, ..., B_n$ 是其样本空间的一个划分，则以下全概率公式成立:
$\sum_{i = 1}^nP(A|B_i)P(B_i)$

贝叶斯公式

设 $A$ 和 $B$ 是随机试验 $E$ 的任意两个事件，以下贝叶斯公式成立:
$\frac{P(A|B)P(B)}{P(A)}$
可以进一步与全概率公式结合起来。令 $B_1, B_2, ..., B_n$ 是 $S$ 的一个划分，而且 $P(B_i) > 0 (i = 1, 2,..., n)$ ，则有:
$P(B_i|A) = \frac{P(A|B_i)P(B_i)}{\sum_{j = 1}^nP(A|B_j)P(B_j)}$
贝叶斯公式在人工智能中非常重要，产生了重要的贝叶斯学派。贝叶斯公式对于揭示信息认知加工过程与规律、实现有效的学习和判断决策都具有十分重要的理论意义和实践价值。

独立性

设 $A$ 和 $B$ 是两个随机事件，如果满足等式 $P (A B) = P (A) P (B)$ 则称事件 $A$ 和 $B$ 相互独立。
两个事件相互独立的含义是其中一个事件已发生，不影响另一个事件发生的概率。在实际应用中，对于事件的独立性通常是根据事件的实际意义去判断。如果根据实际情况分析，两个事件之间没有关联或者关联很弱，那么就认为它们之间是相互独立的。例如，如果甲、乙两人同一天感冒，甲在中国，乙在美国，双方并未接触，则可以认为两个事件是独立的。如果甲、乙是住在同一个宿舍的舍友，那么就不能认为是相互独立的。

随机变量

将一枚硬币抛掷两次，观察出现正面 $H$ 和反面 $T$ 的情况，样本空间是
$S = \{HH, HT, TT, TH\}$
以 $X$ 表示两次投掷得到正面 $H$ 的总数，则 $X$ 的取值是一个随机变量:

$X = 0$ :当投掷结果是 ${TT\}$ 时;
$X = 1$ :当投掷结果是 ${HT\}$ 或 ${TH\}$ 时;
$X = 2$ :当投掷结果是 ${HH\}$ 时。

随机变量的取值随试验的结果而定，在试验之前不能预知取什么值，并且其取值有一定的的概率。随机变量的引入，使我们能够描述各种随机现象，并能利用数学方法对随机试验的结果进行深入分析。

离散型随机变量

取值是有限个或可列举无限个的随机变量称为离散型随机变量。例如，抛掷一枚硬币，只可能取正面和反面两个取值，因此是离散型随机变量。
设离散型随机变量 $X$ 可能的取值为$x_k (k = 1, 2,…) $，$ X $取各个可能值的概率，即事件$ {X = x_k}$的概率，为:
$x_k) = p_k,k=1,2,\cdots$
上式称为离散型随机变量 $X$ 的分布律。
注意，根据概率的定义， $p_k$ 满足以下两个条件:

$p_k \geq 0,k=1,2,\cdots$
$\sum_{k=1}^\infty p_k = 1$

离散型随机变量分布

以下两种离散型随机变量经常被使用。
第一个是 $(0 - 1)$ 分布。设随机变量 $X$ 只能取0和1两个值，其分布律为
$P(X = k) = p^k(1-p)^{1-k}$
其中， $k$ 的取值是0或1， $0 < p < 1$ 。
第二个是二项分布。设 $n$ 是一个正整数， $k$ 是一个不大于 $n$ 的非负整数，即 $0 \leq k \leq n$ ，某个随机事件 $A$ 发生的概率为 $p$ ，则在 $n$ 次试验中事件 $A$ 发生 $k$ 次的概率为:
$\left( \begin{matrix} n \\ k \end{matrix} \right) p^k(1-p)^{1-k}$
显然，当 $n = 1$ 时，二项分布等价于 $(0 - 1)$ 分布。

随机变量的分布函数

对于非离散型随机变量，其取值不能一一列举，因此需要采用新的形式对离散型和非离散型随机变量进行统一描述。
设 $X$ 是一个随机变量， $x$ 是任意实数，函数
$\leq x)$
称为 $X$ 的分布函数。
对于任意两个实数 $x_1$ 和 $x_2$ 且满足 $x_1 < x_2$ ，均有:
$\begin{aligned} P(x_1 \leq X \leq x_2) &= P(X \leq x_2) - P(X \leq x_1) \\ &= F(x_2) - F(x_1) \end{aligned}$
因此，如果已知 $X$ 的分布函数，我们就知道 $X$ 落在任意区间 $(x 1, x 2]$ 的概率。从这个意义上说，分布函数完整地描述了随机变量的统计规律性。

分布律与分布函数

x	-1	2	3
$p_k$	0.25	0.50	0.25

给定上表所示的分布律，相应的分布函数定义如下:
$\begin{cases} 0.00 & x \lt -1 \\ 0.25 & -1 \leq x \lt 2 \\ 0.75 & 2 \leq x \lt 3 \\ 1.00 & x \geq 3 \end{cases}$
由此可见，分布函数可以全面地描述离散型随机变量。

连续型随机变量

如果对于随机变量 $X$ 的分布函数 $F (x)$ ，存在非负函数 $f (x)$ ，使对于任意实数 $x$ 有
$\int_{-\infty}^x f(t)dt$
则称 $X$ 为连续型随机变量。 $f (x)$ 称为 $X$ 的概率密度函数，具有以下性质:

$\geq 0$
$\int_{-\infty}^{\infty} f(x)dx = 1$
对于任意实数 $x_1$ 和 $x_2(x_1 ≤ x_2)$ ， $P(x_1 < X ≤ x_2) = F(x_2) − F(x_1)$ ;
若 $f (x)$ 在点 $x$ 处连续，则有 $F^{'} (x) = f (x)$ 。

均匀分布

若连续型随机变量 $X$ 具有概率密度
$\begin{cases} \frac{1}{b-a} & a \lt b \\ 0 & otherwise \end{cases}$
则称 $X$ 在区间 $(a, b)$ 上服从均匀分布，记为 $X \sim U (a, b)$ 。

正态分布

若连续型随机变量 $X$ 具有概率密度
$\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)$
其中 $\mu$ 和 $\sigma$ 实常数且 $\sigma > 0$ ，则称 $X$ 服从参数为 $\mu$ 和 $\sigma$ 的正态分布或高斯分布，记作 $N(\mu, \sigma^2)$ 。

二维随机变量

之前只限于讨论单个随机变量的情况，实际问题中经常出现多个随机变量的情况。例如，为了研究某一地区某一年龄段儿童的发育情况，需要统计儿童的身高和体重。
设 $(X, Y)$ 是二维随机变量，对于任意实数 $x$ 和 $y$ ，二元函数
$\leq x,Y \leq y)$
称为二维随机变量 $(X, Y)$ 的分布函数，或随机变量 $X$ 和 $Y$ 的联合分布函数。
$P(x_1 \lt X \leq x_2，y_1 \lt Y \leq y_2) = F(x_2,y_2) - F(x_2,y_1) - F(x_1,y_2) + F(x_1,y_1)$

二维离散型随机变量

如果二维随机变量 $(X, Y)$ 全部可能的取值是有限对或可列无限多对，则称 $(X, Y)$ 是离散型的随机变量。设 $(X, Y)$ 所有的可能取值为 $x_i,y_j)，i, j = 1, 2,...$ ，则 $X$ 和 $Y$ 的联合分布律定义为
$P(X = x,Y = y) = p_{ij}$
联合分布律通常使用表格的方式来表示:

	$x_1$	$x_2$	$\cdots$	$x_i$	$\cdots$
$y_1$	$p_{11}$	$p_{21}$	$\cdots$	$p_{i1}$	$\cdots$
$y_2$	$p_{12}$	$p_{22}$	$\cdots$	$p_{i2}$	$\cdots$
$\vdots$	$\vdots$	$\vdots$	$\ddots$	$\vdots$	$\cdots$
$y_j$	$p_{1j}$	$p_{2j}$	$\cdots$	$p_{ij}$	$\cdots$
$\vdots$	$\vdots$	$v d o t s$	$\cdots$	$\vdots$	$\cdots$

二维连续型随机变量

对于二维随机变量 $(X, Y)$ 的分布函数 $F (x, y)$ ，如果存在非负的函数 $f (x, y)$ 使得对于任意 $x$ 和 $y$ 都有:
$\int_{-\infty}^{y}\int_{-\infty}^{x}f(u,v)dudv$
则称 $(X, Y)$ 是连续型的二维随机变量，函数 $f (x, y)$ 称为二维随机变量 $(X, Y)$ 的概率密度，或成为随机变量X和Y的联合概率密度。
例如，给定概率密度:
$\begin{cases} 2e^{-(2x+y)} & x \gt 0,y \gt 0 \\ 0 & otherwise \end{cases}$
可计算分布函数为 $F(x, y) = (1 − e^{−2x})(1 − e^{−y})$ ，当 $x > 0$ 且 $y > 0$ 时。

边缘分布律

二维随机变量 $(X, Y)$ 作为一个整体，具有分布函数 $F (x, y)$ ，而 $X$ 和 $Y$ 都是随机变量，各自也有分布函数，分别记为 $F_X(x)$ 和 $F_Y(y)$ ，分别称为二维随机变量 $(X, Y)$ 关于X和关于Y的边缘分布函数，定义如下:
$F_X(x) = P(X \leq x,Y \lt \infty) = F(x,\infty) \\ F_Y(y) = P(X \lt \infty,Y \leq y) = F(\infty,y)$
随机变量 $X$ 和 $Y$ 的分布律分别定义为:
$x_i) = \sum_{j = 1}^\infty P_{ij} \\ P(Y = y_j) = \sum_{i = 1}^\infty P_{ij}$
上述式子也称为二维离散型随机变量 $(X, Y)$ 关于 $X$ 和 $Y$ 的边缘分布律。

边缘概率密度

对于连续型随机变量 $(X, Y)$ ，设其概率密度为 $f (x, y)$ ，由于
$F_X(x) = F(x,\infty) = \int_{-\infty}^x\left(\int_{-\infty}^\infty f(x,y)dy\right)dx$
由此可知 $X$ 是一个连续型随机变量，而且其概率密度函数为:
$f_X(x) = \int_{-\infty}^\infty f(x,y)dy$
同样， $Y$ 也是一个连续型随机变量，而且其概率密度函数为:
$f_Y(y) = \int_{-\infty}^\infty f(x,y)dx$
$f_X(x)$ 和 $f_Y(y)$ 分别是关于 $X$ 和关于 $Y$ 的边缘概率密度。

条件分布律

下面来考虑事件 ${Y = y_j\}$ 在已发生的条件下事件 ${X = x_i\}$ 发生的概率，也就是求事件 ${X = x_i | Y = y_j\}$ 的概率。
设 $(X, Y)$ 是二维离散型随机变量，对于固定的 $j$ ，若 $P(Y = y_j) > 0$ ，则称:
$x_i|Y = y_j) = \frac{P(X = x_i,Y = y_i)}{P(Y = y_j)}$
为在 $Y = y_j$ 条件下随机变量 $X$ 的条件分布律。
类似地，对于固定的 $i$ ，若 $P(X = x_i) > 0$ ，则称:
$y_j|X = x_i) = \frac{P(X = x_i,Y = y_i)}{P(X = x_i)}$
为在 $X = x_i$ 条件下随机变量 $Y$ 的条件分布律。

条件概率密度

设二维随机变量 $(X, Y)$ 的概率密度为 $f (x, y)$ ， $(X, Y)$ 关于 $Y$ 的边缘概率密度为 $f_Y(y)$ 。若对于固定的y，fY(y) > 0，则在Y = y条件下X的条件概率密度定义为:
$f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}$
与之对应地，在 $Y = y$ 条件下 $X$ 的条件分布函数定义为:
$F_{X|Y}(x|y) = \int_{-\infty}^x \frac{f(x,y)}{f_Y(y)}dx$
类似地，我们也可以定义在X = x条件下Y的条件概率密度和条件分布函数。

相互独立的随机变量

设 $F (x, y)$ 、 $F_X(x)$ 和 $F_Y(y)$ 分别是二维随机变量 $(X, Y)$ 的分布函数及边缘概率分布，如果对于所有的 $x$ 和 $y$ 有:
$\leq x,Y \leq y) = P(X \leq x)P(Y \leq y) \\ F(x, y) = F_X(x)F_Y(y)$
则称随机变量 $X$ 和 $Y$ 相互独立
当 $X$ 和 $Y$ 是离散型随机变量时， $X$ 和 $Y$ 相互独立的条件是:
$P(X = x_i, Y = y_j) = P(X = x_i)P(Y = y_j)$
当 $X$ 和 $Y$ 是连续型随机变量时， $X$ 和 $Y$ 相互独立的条件是:
$f(x, y) = f_X(x)f_Y(y)$

数学期望

设离散型随机变量 $X$ 的分布律为 $P(X = x_k) = p_k(k ≥ 1)$ ，其数学期望定义为:
$\mathbb{E}(X) = \sum_{k = 1}^\infty x_kp_k$
类似地，设连续型变量 $X$ 的概率密度为 $f (x)$ ，其数学期望定义为:
$\mathbb{E}(X) = \int_{-\infty}^\infty xf(x)dx$
例如，假定 $P (X = 0) = 0.3 ， P (X = 1) = 0.5 ， P (X = 2) = 0.2$ ，则 $X$ 的数学期望计算如下:
$\mathbb{E}(X) = 0 × 0.3 + 1 × 0.5 + 2 × 0.2 = 0.9$

随机变量函数的数学期望

设 $Y$ 是随机变量 $X$ 的连续函数，即 $Y = g (X)$ 。如果 $X$ 是离散型随机变量，其分布律为 $P(X = x_k) = p_k(k ≥ 1)$ ，则 $Y$ 的数学期望定义为:
$\mathbb{E}(Y) = \mathbb{E}(g(X))= \sum_{k = 1}^\infty g(x_k)p_k$
如果 $X$ 是连续型随机变量，其概率密度为 $f (x)$ ，则 $Y$ 的数学期望定义为:
$\mathbb{E}(Y) = \mathbb{E}(g(X))= \int_{-\infty}^\infty g(x)f(x)dx$

数学期望的性质

设 $C$ 为实常数，则有 $\mathbb{E}(C) = C$ 。
设 $X$ 是一个随机变量， $C$ 是常数，则有 $\mathbb{E}(CX) = C\mathbb{E}(X)$ 。
设 $X$ 和 $Y$ 是两个随机变量，则有 $\mathbb{E}(X + Y) = \mathbb{E}(X) + \mathbb{E}(Y)$ 。这一性质可以推广到任意有限个随机变量之和的情况。
设 $X$ 和 $Y$ 是两个相互独立的随机变量，则有 $\mathbb{E}(XY) = \mathbb{E}(X)\mathbb{E}(Y)$ 。这一性质可以推广到任意有限个相互独立的随机变量之积的情况。

方差

方差用于度量随机变量与其均值的偏离程度。设 $X$ 是一个随机变量， $X$ 的方差定义为:
$\mathbb{E}((X - \mathbb{E}(X))^2)$
我们通常将 $\sqrt{D(X)}$ 记为 $\sigma(X)$ ，称为标准差或者均方差。
对于离散型随机变量，方差计算公式为
$\sum_{k = 1}^\infty(x_k - \mathbb{E}(X))^2p_k$
对于连续型随机变量，方差计算公式为:
$\int_{-\infty}^{\infty}(x - \mathbb{E}(X))^2f(x)dx$