深度学习数学基础--概率与信息论(1)

3.1 为什么要使用概率

不确定性有三种可能的来源:

  1. 被建模系统内在的随机性
  2. 不完全观测
  3. 不完全建模

  • 频率派概率frequentist probability):概率直接与事件发生的频率相联系
  • 贝叶斯概率Bayesian probability):涉及确定性水平

在医生诊断病人的例子中,用概率来表示一种信任度degree of belief
相同的公理控制两种概率,细节参考 Ramsey(1926)

3.2 随机变量

随机变量random variable):是可以随机地取不同值的变量。

通常用无格式字体中的小写字母来表示随机变量本身
手写体中的小写字母来表示随机变量能够取到的值

eg:   x 1   和   x 2   都 是 随 机 变 量   x   可 能 的 取 值 \ x_1 \ 和\ x_2\ 都是随机变量\ \rm{x}\ 可能的取值  x1  x2  x 
对 于 向 量 值 变 量 , 随 机 变 量 写 成 x , 它 的 一 个 坑 你 取 值 为 x \qquad 对于向量值变量,随机变量写成 \bf{x} ,它的一个坑你取值为 \boldsymbol{x} x,x

3.3 概率分布

概率分布probability distribution):用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小

离散型变量和概率质量函数

离散型变量的概率分布可以用概率质量函数probability mass function,PMF)来描述。通常用大写字母 P P P 来表示。
通常每一个随机变量都会有一个不同的概率质量函数,必须根据随机变量来推断所使用的PMF,而不是根据函数的名称来推断。
例如 P ( x ) P(\rm{x}) P(x) 通常和 P ( y ) P(\rm{y}) P(y) 不一样

概 率 质 量 函 数 , 也 称 概 率 分 布 律 概率质量函数,也称\color{Blue}{概率分布律} ,


概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。
x = x \rm{x} =\Bbb{x} x=x 的概率用 P ( x ) P(x) P(x) 来表示,
概率为 1 表示 x = x \rm{x} =\Bbb{x} x=x是确定的
概率为 0 表示 x = x \rm{x} =\Bbb{x} x=x是不可能发生的
有时为了使得PMF的使用不相互混淆,会明确写出随机变量的名称: P ( x = x ) P(\rm{x}=\Bbb{x}) P(x=x)
有时会先定义一个随机变量,用 ∼ \sim 符号来说明它遵循的分布: x ∼ P ( x ) \rm{x}\sim \it{P}(\rm{x}) xP(x)


联合概率分布joint probability distribution):是同时作用于多个随机变量的概率质量函数,即多个变量的概率分布。
P ( x = x , y = y ) P(\rm{x}=\Bbb{x},\rm{y}=\Bbb{y}) P(x=x,y=y) 表示 x = x \rm{x}=\Bbb{x} x=x y = y \rm{y}=\Bbb{y} y=y 同事发生的概率,简写为 P ( x , y ) P(\Bbb{x,y}) P(x,y)


函数 P P P 是随机变量 x \rm{x} x 的 PMF,需要满足的条件:

  • P P P 的定义域必须是 x \rm{x} x 的所有可能状态的集合
  • ∀ x ∈ x , 0 ≤ P ( x ) ≤ 1 \forall x \in \rm{x}, 0 \le {\it{P}}({\Bbb{x}}) \le 1 xx,0P(x)1
  • 归一化的normalized): ∑ x ∈ x P ( x ) = 1 \sum_{x\in {\rm{x}}}P(x)=1 xxP(x)=1

连续型变量和概率密度函数

连续型变量的概率分布可以用概率密度函数probability density function,PDF)来描述。
如果一个函数 p \it{p} p 是概率密度函数,需要满足以下条件:

  • p \it{p} p 的定义域必须是 x \rm{x} x 的所有可能状态的集合
  • ∀ x ∈ x , p ( x ) ≥ 0 \forall x \in \rm{x}, {\it{p}}({\Bbb{x}}) \ge 0 xx,p(x)0
  • ∫ p ( x ) d x = 1 \int p(x)dx=1 p(x)dx=1

概率密度函数并没有直接对特定的状态给出概率,
相对的,它给出了落在面积为 δ x \delta x δx 的无限小的区域的概率为 p ( x ) δ x p(x)\delta x p(x)δx

可以对概率密度函数求积分来获得点集的真实概率质量。
特别的, x x x 落在集合 S \Bbb{S} S 中的概率可以通过 p ( x ) p(x) p(x) 对这个集合求积分来得到。
在单变量的例子中, x x x 落在区间 [ a , b ] [a,b] [a,b] 的概率是 ∫ [ a , b ] p ( x ) d x \int_{[a,b]}p(x)dx [a,b]p(x)dx

3.4 边缘概率

对离散型随机变量
∀ x ∈ x , P ( x = x ) = ∑ y P ( x = x , y = y ) \forall x \in {\rm{x}},P({\rm{x}}=x)=\sum\limits_y P({\rm{x}}=x,{\rm{y}}=y) xx,P(x=x)=yP(x=x,y=y)
对连续型变量
p ( x ) = ∫ p ( x , y ) d y p(x)=\int p(x,y)dy p(x)=p(x,y)dy

3.5 条件概率

条件概率:某事件在给定其他事件发生时出现的概率。
给定 x = x , y = y {\rm{x}}=x,{\rm{y}}=y x=x,y=y 发生的条件概率记为 P ( y = y ∣ x = x ) P({\rm{y}}=y|{\rm{x}}=x) P(y=yx=x) ,计算公式如下:
P ( y = y ∣ x = x ) = P ( y = y , x = x ) P ( x = x ) ( P ( x = x ) > 0 ) P({\rm{y}}=y|{\rm{x}}=x)=\frac{P({\rm{y}}=y,{\rm{x}}=x)}{P({\rm{x}}=x)}\qquad {\color{Red}{(P({\rm{x}}=x) \gt 0)}} P(y=yx=x)=P(x=x)P(y=y,x=x)(P(x=x)>0)

3.6 条件概率的链式法则

任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式:
P ( x ( 1 ) , ⋯   , x ( n ) ) = P ( x ( 1 ) ) ∏ i = 2 n P ( x ( i ) ) ∣ x ( 1 ) , ⋯   , x ( i − 1 ) ) P({\rm{x}}^{(1)},\cdots,{\rm{x}}^{(n)}) =P({\rm{x}}^{(1)}) \prod_{i=2}^n P({\rm{x}}^{(i)})|{\rm{x}}^{(1)},\cdots,{\rm{x}}^{(i-1)}) P(x(1),,x(n))=P(x(1))i=2nP(x(i))x(1),,x(i1))

3.7 独立性和条件独立性

两个随机变量 x \rm{x} x y \rm{y} y ,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含 x \rm{x} x,另一个因子只包含 y \rm{y} y ,那么就称这两个随机变量是相互独立的independent

∀ x ∈ x , y ∈ y , p ( x = x , y = y ) = p ( x = x ) p ( y = y ) \forall x \in {\rm{x}},y\in \rm{y}, \it{p({\rm{x}}=x,{\rm{y}}=y) =p({\rm{x}}=x)p({\rm{y}}=y)} xx,yy,p(x=x,y=y)=p(x=x)p(y=y)

如果关于 x \rm{x} x y \rm{y} y 的条件概率分布对于 z \it{z} z 的每一个值都可以写成乘积的形式,那么这两个随机变量 x \rm{x} x y \rm{y} y 在给定随机变量 z \it{z} z 时是条件独立的conditionally independent):

∀ x ∈ x , y ∈ y , z ∈ z , p ( x = x , y = y ∣ z = z ) = p ( x = x ∣ z = z ) p ( y = y ∣ z = z ) \it{\forall x \in {\rm{x}},y\in \rm{y},\it{z} \in {\rm{z}}, p({\rm{x}}=x,{\rm{y}}=y|{\rm{z}}=\it{z}) =p({\rm{x}}=x|{\rm{z}}=\it{z})p({\rm{y}}=y|{\rm{z}}=\it{z})} xx,yy,zz,p(x=x,y=yz=z)=p(x=xz=z)p(y=yz=z)

独立性和条件独立性的简化形式表示:
x ⊥ y \rm{x} \perp \rm{y} xy 表示 x \rm{x} x y \rm{y} y 相互独立
x ⊥ y ∣ z \rm{x} \perp \rm{y}|\rm{z} xyz 表示 x \rm{x} x y \rm{y} y 在给定 z \rm{z} z 时相互独立

3.8 期望、方差和协方差

期望

函数 f ( x ) f(x) f(x) 关于某分布 P ( x ) P(\rm{x}) P(x)期望expectation)或者期望值expected value)指当 x x x P P P 产生, f f f 作用于 x x x 时, f ( x ) f(x) f(x) 的平均值。

  • 对于离散型随机变量
    E x ∼ P [ f ( x ) ] = ∑ x P ( x ) f ( x ) \Bbb{E}_{\rm{x}\sim P[f(x)]}=\sum_xP(x)f(x) ExP[f(x)]=xP(x)f(x)
  • 对于连续型随机变量
    E x ∼ p [ f ( x ) ] = ∫ p ( x ) f ( x ) d x \Bbb{E}_{\rm{x}\sim p[f(x)]}=\int p(x)f(x)dx Exp[f(x)]=p(x)f(x)dx

当概率分布在上下文中指明时,可以只写出期望作用的随机变量的名称来简化,如 E x [ f ( x ) ] \Bbb{E}_{\rm{x}}[f(x)] Ex[f(x)]
如果期望作用的随机变量明确,可以不写脚标,如 E [ f ( x ) ] \Bbb{E}[f(x)] E[f(x)]
默认假设 E [ ⋅ ] \Bbb{E}[\cdot] E[] 表示对方括号内的所有随机变量的值求平均,如果没有歧义时,可以省略方括号

期望是线性的:
E x [ α f ( x ) + β g ( x ) ] = α E x [ f ( x ) ] + β E x [ g ( x ) ] \Bbb{E}_{\rm{x}}[\alpha f(x)+\beta g(x)] =\alpha \Bbb{E}_{\rm{x}}[f(x)]+\beta \Bbb{E}_{\rm{x}}[g(x)] Ex[αf(x)+βg(x)]=αEx[f(x)]+βEx[g(x)]
其中 , α \alpha α β \beta β 不依赖于 x x x

方差

方差(variance)衡量的是当对 x x x 依据它的概率分布进行采样时,随机变量 x \rm{x} x 的函数值会呈现多大的差异:
Var ⁡ ( f ( x ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] \operatorname{Var}(f(x))=\Bbb{E}[(f(x)-\Bbb{E}[f(x)])^2] Var(f(x))=E[(f(x)E[f(x)])2]

当方差很小时, f ( x ) f(x) f(x) 的值形成的簇比较接近其期望值。
方差的平方根称为标准差standard deviation

协方差

协方差covariance)在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度:
Cov ⁡ ( f ( x ) , g ( y ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( y ) − E [ g ( y ) ] ) ] \operatorname{Cov}(f(x),g(y)) =\Bbb{E}[(f(x)-\Bbb{E}[f(x)])(g(y)-\Bbb{E}[g(y)])] Cov(f(x),g(y))=E[(f(x)E[f(x)])(g(y)E[g(y)])]

协方差的绝对值如果很大,意味着变量值变化很大,并且它们同时距离各自的均值很远
如果协方差为正,则两个变量都倾向于同时取得相对较大的值。
如果协方差为负,则一个变量倾向于取得相对较大的值的同时,另一个变量倾向于取得较小的值。


如果两个变量相互独立,它们的协方差为零。
如果两个变量的协方差不为零,它们之间一定是相关的。
如果两个变量的协方差为零,它们之间一定没有线性关系。
两个变量相互独立,它们之间没有线性关系,也没有非线性关系。
两个变量相互依赖,仍然有可能具有零协方差。


随机向量 x ∈ R n \boldsymbol{x}\in \Bbb{R}^n xRn协方差矩阵covariance matrix)是一个 n × n n\times n n×n 的矩阵,且
Cov ⁡ ( x ) i , j = Cov ⁡ ( x i , x j ) \operatorname{Cov}(\bf{x})_{\it{i,j}} = \operatorname{Cov}(\rm{x}_{\it{i}},\rm{x}_{\it{j}}) Cov(x)i,j=Cov(xi,xj)

协方差矩阵的对角元是方差:
Cov ⁡ ( x i , x i ) = Var ⁡ ( x i ) \operatorname{Cov}(\rm{x}_{\it{i}},\rm{x}_{\it{i}}) = \operatorname{Var}(\rm{x}_{\it{i}}) Cov(xi,xi)=Var(xi)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值