续上第一部分的线性代数内容,这部分是介绍一下需要掌握的统计学、信息论、常用统计量知识,详细知识需要参考工具书。
2.概率和统计
2.1 随机变量(Random variable)
随机事件的数量表现,随机事件数量化的好处是可以用数学分析的方法来研究随机现象
随机变量可以是离散的或者连续的,离散随机变量是指拥有有限个或者可列无限多个状态的随机变量,连续随机变量是指变量值不可随机列举出来的随机变量,一般取实数值
随机变量通常用概率分布来指定它的每个状态的可能性。
2.2 常见概率分布
2.2.1 伯努利分布(Bernoulli)
伯努利试验:只可能有两种结果的单次随机实验
又称0-1分布,单个二值型离散随机变量的分布
其概率分布:P(X=1)=p, P(X=0)=1-p
2.2.2 二项分布(Binomial)
二项分布即重复n次伯努利试验,各试验之间都相互独立
如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中事件发生k次的概率为
2.2.3 均匀分布(Uniform)
又称矩形分布,在给定长度间隔[a, b]内的分布概率是等可能的,均匀分布由参数a,b定义,概率密度函数为:
累积概率分布函数
2.2.4 高斯分布(Gaussian)
又称正态分布(normal),是实数中最常用的分布,比如diffusion模型里的添加高斯噪声; 由均值μ和标准差σ决定其分布,概率密度函数为:
累积概率分布函数:
2.2.5 指数分布(exponential)
常用来表示独立随机事件发生的时间间隔,重要特征是无记忆性
参数为λ>0的指数分布概率密度函数为:
累积概率分布函数:
2.3 多个随机变量概率分布
2.3.1 条件概率(Conditional probability):
事件X在事件Y发生的条件下发生的概率,P(X|Y)
2.3.2 联合概率(Joint probability):
表示两个事件X和Y共同发生的概率, P(X,Y)
条件概率和联合概率的性质:
推广到n个事件,条件概率的链式法则:
2.3.3 先验概率(Prior probability):
根据以往经验和分析得到的概率,在事件发生前已知,它往往作为 “由因求果”问题中的“因”出现
2.3.4 后验概率(Posterior probability):
指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中 的“因” ,后验概率是基于新的信息,修正后来的先验概率所获得的更接近实际情况的概率估计
2.3.5 全概率公式
设事件{Ai} 是样本空间Ω的一个划分,且P(Ai)>0 (i=1,2,…,n), 那么:
样本空间划分的定义:
2.3.6 贝叶斯公式
全概率公式给我们提供了计算后验概率的途径,即贝叶斯公式:
3. 信息论
3.1 熵(Entropy)
信息熵,可以看作是样本集合纯度一种指标,也可以认为是样本集 合包含的平均信息量
假定当前样本集合X中第i类样本xi所占的比例为P(xi)(i=1,2,…,n), 则X的信息熵定义为:
H(X)的值越小,则X的纯度越高,蕴含的不确定性越少
3.2 联合熵
两个随机变量X和Y的联合分布可以形成联合熵,度量二维随机变量XY的不确定性
3.3 条件熵
在随机变量X发生的前提下,随机变量Y发生带来的熵,定义为Y的条件熵,用H(Y|X)表示:
条件熵用来衡量在已知随机变量X的条件下,随机变量Y的不确定。 熵、联合熵和条件熵之间的关系如下:
3.4 互信息的定义
3.5 信息增益
3.6 相对熵
又称KL散度
描述两个概率分布P和Q差异的一种方法,记做D(P||Q)
在信息论中,D(P||Q)表示用概率分布Q来拟合真实分布P时,产生的信息表达的损耗,其中P表示信源的真实分布,Q表示P的近似分布,也就是:使用基于Q的分布来编码服从P的分布的样本所需的额外的平均比特数
3.7 交叉熵(cross entrop)
一般用来求目标与预测值之间的差距,深度学习中经常用到的一类损失函数度量,比如在对抗生成网络( GAN )中
4.常用统计量
4.1 期望(Expectation)
在概率和统计学中,数学期望是试验中每次可能结果的概率乘以其结果的总和,反映随机变量平均值的大小
假设X是离散随机变量,可能取值(x1 ,x2 ,…,xn),各取值的概率为P(x), 则期望的计算为:
假设X是连续随机变量,其概率密度函数为p(x),则期望的计算为
4.2 方差(Variance)
用来衡量随机变量与数学期望之间的偏离程度
统计中的方差则为样本方差,是各个样本数据分别与其平均数之差的平方和的平均数,计算过程为:
4.3 协方差(Covariance)
衡量两个随机变量X和Y直接的总体误差,计算过程为: