深度学习第3章-概率与信息论

本文介绍了概率论在深度学习中的重要性,详细阐述了概率分布、边缘概率、条件概率、独立性、期望、方差和协方差等核心概念。通过对离散型随机变量的概率质量函数和连续型随机变量的概率密度函数的讨论,展示了如何描述随机变量的可能性。此外,还讲解了贝叶斯规则及其在处理不确定性问题中的应用。
摘要由CSDN通过智能技术生成

概率论用于表示不确定性声明的数学框架,提供了量化不确定性的方法,也提供了用于导出新的不确定性声明的公理。

在人工智能领域,概率论主要有两种用途:

  1. 概率法则告诉我们AI系统如何推理,据此我们设计出一些算法来计算或估算由概率论导出的表达式。
  2. 用概率和统计从理论上分析提出的AI系统的行为。

概率论使我们能够提出不确定性的声明,以及在不确定性存在的情况下进行推理;

信息论能使我们能够量化概率分布中的不确定性总量。

3.1 为什么要使用概率论

不确定性有3种可能的来源:

  1. 被建模系统内在的随机性
  2. 不完全观测
  3. 不完全建模

概率可以分为两类,分别是频率派概率贝叶斯概率,前者直接与事件发生的频率相联系,如掷骰子出现某一点数的概率;后者涉及确定性水平,用概率表示一种信任度,如诊断病人患流感的概率。

概率论提供了一套形式化的逻辑,可以在给定一些命题的似然后,计算其他命题为真的似然。

3.2 概率分布

概率分布,描述随机变量或一簇随机变量在每一个可能状态下的可能性大小。描述概率分布的方式取决于随机变量是离散的还是连续的。

3.2.1 离散型随机变量和概率质量函数

离散型随机变量的概率分布可以用概率质量函数(PMF)来描述,用大写字母P表示。

概率质量函数将随机变量能取得的状态映射到取得该状态的概率。

概率质量函数可以同事作用于多个随机变量,这种多个随机变量的概率分布就是联合概率分布P(x,y)

如果一个函数P是随机变量x的PMF,必满足如下3个必要条件:

  • P的定义域须是x所有可能状态的集合
  • 任一状态的概率0<=P(x)<=1
  • \sum P(x)=1,即是归一化的

3.2.2 连续型随机变量和概率密度函数

连续型随机变量的概率分布用概率密度函数(PDF)来描述,用小写字母p表示。

概率密度函数的3个必要条件为:

  • p的定义域须是x所有可能状态的集合
  • p(x)>=0,注意,并不要求p(x)<=1
  • \int p(x)dx=1

概率密度函数没有直接对特定状态给出概率,相对的给出了落在面积为\delta x的无限小区域内的概率为p(x)\delta x

对概率密度函数求积分获得点集的真实概率质量。x落在集合S中的概率可以通过p(x)对这个集合求积分来得到。

3.3 边缘概率

有时我们知道了一组变量的联合概率分布,想知道其中一个子集的概率分布,这种定义在子集上的概率分布就是边缘概率分布

对于离散型随机变量x,y,已知P(x,y),则可以根据求和法则计算P(x):P(x)=\sum_{y}P(x,y)

对于连续型随机变量,用积分代替求和:p(x)=\int p(x,y)dy

3.4 条件概率

某个事件在给定其他事件发生时,出现的概率即为条件概率:P(y|x)=\tfrac{P(y,x)}{P(x)}

需要注意的是,条件概率和给定条件动作后会发生什么是完全不同的两个概念。一个人会说德语,那么他是德国人的概率很大,但是他的国籍不会因此改变。

3.5 条件概率的链式法则

任何多维随机变量的联合概率分布,都可以分解成单一变量的条件概率相乘的形式。

P(a,b,c) = P(a|b,c)P(b,c)

P(b,c) = P(b|c)P(c)

P(a,b,c) = P(a|b,c)P(b|c)P(c)

3.6 独立性和条件独立性

如果两个随机变量x,y的概率分布可以表示成两个因子的乘积形式,且一个因子只包含x,另一个因子只包含y,那么我们称这俩个随机变量是相互独立的

P(x,y) = P(x)P(y),简化形式为:x\perp y

如果关于x,y的条件概率分布,对于z的每一个值都可以写成乘积形式,那么我们称这两个随机变量x,y在给定随机变量z时,是条件独立的

P(x,y|z) = P(x|z)P(y|z),简化形式为:x\perp y\mid z

3.7 期望、方差和协方差

期望是指,x由分布P产生,f作用于x时,f(x)的平均值。

对于离散型随机变量,可以通过求和得到:\sum_{x}P(x)f(x)

对于连续型随机变量,可以通过积分得到:\int p(x)f(x)dx

期望是线性的:E[\alpha f(x)+\beta g(x)] = \alpha E[f(x)] + \beta E(g(x)),其中\alpha ,\beta独立于x。

方差衡量的是对x根据概率分布进行采样时,随机变量x的函数值会呈现多大的差异:Var(f(x)) = E[(f(x) -E[f(x)])^2]

当方差很小时,f(x)的值形成的簇接近其期望值。

标准差是方差的算术平方根。

协方差在某种意义上给出了两个变量,线性相关的强度,

以及这些变量的尺度:Cov(f(x),g(y)) = E[(f(x) - E[f(x)])(g(y)-E[g(y)])]

协方差的绝对值很大,意味着变量值变化很大,且他们同时距离各自的均值很远。

如果协方差是正值,则两个变量都倾向于同时取得相对较大的值,

如果协方差是负值,则其中一个变量倾向于取得相对较大值,另一个倾向于取得相对较小值。

相关系数是将每个变量的贡献归一化,为了消除变量尺度的影响,只衡量变量间的相关性。

(0,\infty )协方差和相关性是有联系的,但是概念不同。如果两个变量是相互独立的,那么他们的协方差为0,如果他们的协方差不为0,则一定相关。独立性和协方差具有完全不同的性质,独立性比零协方差要求更高,如果协方差为0,则一定没有线性关系,但是可能会有非线性关系,而独立性排除了非线性关系。

协方差矩阵是一个nxn的矩阵,且满足:Cov(x)_{i,j} = Cov(x_{i},x_{j})

协方差矩阵的对角元是方差:Cov(x_i,x_i) = Var(x_i)

3.8 常用概率分布

  1. Bernoulli分布:单个二值随机变量的分布
  2. Multinoulli分布:具有k个不同状态的单个离散型随机变量的分布
  3. 高斯分布/正态分布:中心峰值的坐标也是均值
  4. 指数分布(Laplace分布):在x=0处取得边界点的分布,x<0则概率为0(x=u设置概率质量的峰值)
  5. Dirac分布(经验分布):概率分布中的所有质量集中在一个点上(Dirac分布经常作为经验分布的一个组成部分)
  6. 混合分布

3.9 两个常用函数的有用性质

logistic sigmoid 函数:\sigma (x) = \frac{1}{1+exp(-x)}

通常用来产生Bernoulli分布的参数\phi,因为其范围是(0,1)在\phi的取值范围内。函数在变量绝对值非常足够大的时候会出现饱和现象,函数会变得很平,对输入值的微小改变不敏感。

softplus 函数:\zeta (x) = log(1+exp(x))

softplus函数可以用来产生正态分布的\beta ,\sigma参数,因为其范围是(0,\infty ),当处理包含sigmoid函数的表达式时,也经常出现

3.10 贝叶斯规则

P(x|y)=\frac{P(x)P(y|x)}{P(y)}

由于通常使用P(y)=\sum_{x}P(y|x)P(x)来计算,所以不需要事先知道P(y)的信息。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值