机器学习中的数学:(五)概率与分布(Probability and Distributions)

文章目录


在这里插入图片描述

概率空间的构造(Construction of a Probability Space)

哲学问题(Philosophical Issues)

这部分是对概率的一个解释。概率论是推理系统的一个基础,个人理解就是推理实际上就是找到对某件事情的可能性最大的结果。这里引入了一个合理性(plausibility),并用数学标准描述出来了。

在机器学习中,对概率的解释有两种,一种是贝叶斯式(the Bayesian)还有一种是频率论(Frequentist)前者用概率描述事物的不确定性,后者用在特定时间段中发生特定事情的频率。

概率和随机变量(Probability and Random Variables)

几个概念
样品空间 Ω \Omega Ω(sample space):一个实验可能出现的所有的结果的集合。
事件空间 A \mathcal A A(event space):样品空间的一个子集
概率P(probability): P ( A ) P(A) P(A),一个事件 A ∈ A A\in \mathcal A AA发生的概率。
目标空间 T \mathcal T T(target space)和随机变量 X X X(random variable):为了找到样品空间中我们关注的量,用一个函数 X : Ω → T X: \Omega \rightarrow \mathcal{T} X:ΩT, 其中, X X X称为随机变量。(对,随机变量实际上是一个函数)

One way to understand the transformation of probability from events in Ω \Omega Ω via the random variable X is to associate it with the probability of the pre-image of S
对于一个随机变量 X : Ω → T X:\Omega\rightarrow\mathcal T X:ΩT和目标空间的一个子集 S ⊆ T S\subseteq\mathcal T ST,则 X − 1 ( S ) X^{-1}(S) X1(S) S S S经过 X X X变换的原象(pre-image),也就是 Ω \Omega Ω中的 X − 1 ( S ) X^{-1}(S) X1(S)经过 X X X的变换之后得到 S S S,所以有:
P X ( S ) = P ( X ∈ S ) = P ( X − 1 ( S ) ) = P ( {   ω ∈ Ω : X ( ω ) ∈ S } ) P_X(S) = P(X\in S)=P(X^{-1}(S))=P(\{\ \omega\in\Omega:X(\omega)\in S \}) PX(S)=P(XS)=P(X1(S))=P({ ωΩ:X(ω)S})
这里称 P X P_X PX或者 P ∘ X − 1 P\circ X^{-1} PX1为随机变量 X X X分布(distribution)或者(law?)
在这里插入图片描述

个人理解,随机变量实际上就是对样品空间的某些特性的量化描述,例如,对于一个抛两个硬币的实验,在样品空间中,一次实验正面出现的次数可以为0、1、2,可以将这些数字对应到事件上去,这就是随机变量。

统计(Statistics)

统计和概率往往是一起出现的,但是二者的侧重点不太一样,前者是关注找出能解释观察到的现象的内在过程。后者可以认为是一些过程的模型,其中的不确定性事件被随机变量存储下来,然后用概率的一些规律去弄清楚发生了什么。

离散概率和连续概率(Discrete and Continuous Probabilities)

离散型概率和连续型概率的区别就是前者的目标空间是离散的,后者是连续的。也就是前者的随机变量是由一个个数组成,后者则是一个连续的区间。

离散型概率(Discrete Probabilities)

在这里插入图片描述
由上图可以得到几个概念:
联合概率(joint probability):两个事件的交集
P ( X = x i , Y = y i ) = n i j N P(X =x_i, Y = y_i)=\frac {n_{ij}}{N} P(X=xi,Y=yi)=Nnij
也可以写成 p ( x , y ) p(x,y) p(x,y)

边际概率(marginal probability) P ( X = x i ) = x i N P(X=x_i)=\frac {x_i}{N} P(X=xi)=Nxi
条件概率(conditional probability):当一个事件发生时另一个事件发生的概率
P ( X = x i ∣ Y = y i j ) = n i j r j P(X=x_{i}|Y=y_{ij})=\frac {n_{ij}}{r_j} P(X=xiY=yij)=rjnij

连续性概率(Continuous Probabilities)

没弄懂。
在这里插入图片描述
还有之后提到的,在连续空间中两个反直觉的问题:
1. A \mathcal A A needs to be restricted to behave well under set complements, set intersections,and set unions
2.测量集合的大小。量度(measure)、集的势(cardinality):集合中的元素的个数,当两个集合中的元素个数相等的时候,称为等势
Sets that behave well under set operations and additionally have a topology are called a Borel σ \sigma σ-algebra

概率密度函数
在这里插入图片描述
用概率密度函数可以求解在给定区间当中的概率:
P ( a ≤ X ≤ ) = ∫ b a f ( x ) d x P(a\le X\le)=\int^a_bf(x)dx P(aX)=baf(x)dx
注意一点,一个点在连续函数中出现的概率为0,即在上式 a = b a=b a=b时.

累积分布函数
在这里插入图片描述
即:
F X ( x ) = ∫ − ∞ x 1  ⁣ ⋯ ∫ − ∞ x D f ( z 1 , … , z D ) d z 1 … d z D F_X(x)=\int^{x_1}_{-\infin}\dots\int^{x_D}_{-\infin}f(z_1,\dots,z_D)dz_1\dots dz_D FX(x)=x1xDf(z1,,zD)dz1dzD

加法法则、乘法法则和贝叶斯定理(Sum Rule, Product Rule, and Bayes’ Theorem)

加法法则
p ( x ) = { ∑ y ∈ Y p ( x , y )  if  y  is discrete  ∫ Y p ( x , y ) d y  if  y  is continuous  p(\boldsymbol{x})=\left\{\begin{array}{ll}\sum\limits_{\boldsymbol{y} \in \mathcal{Y}} p(\boldsymbol{x}, \boldsymbol{y}) & \text { if } \boldsymbol{y} \text { is discrete } \\ \\ \int_{\mathcal{Y}} p(\boldsymbol{x}, \boldsymbol{y}) \mathrm{d} \boldsymbol{y} & \text { if } \boldsymbol{y} \text { is continuous }\end{array}\right. p(x)=yYp(x,y)Yp(x,y)dy if y is discrete  if y is continuous 
推广至多变量:
x = [ x 1 , x 2 , … , x D ] ⊤ \boldsymbol x=[x_1,x_2,\dots,x_D]^\top x=[x1,x2,,xD]:

p ( x i ) = ∫ p ( x 1 , … , x D ) d x \ i p(x_i)=\int p(x_1,\dots,x_D)d\boldsymbol x_{\backslash i} p(xi)=p(x1,,xD)dx\i
其中, x \ i \boldsymbol x_{\backslash i} x\i,表示除了 i i i以外的所有的元素。

乘法法则
p ( x , y ) = p ( y ∣ x ) p ( x ) p ( y , x ) = p ( x ∣ y ) p ( y ) p(x,y) = p(y|x)p(x)\\ p(y,x)=p(x|y)p(y) p(x,y)=p(yx)p(x)p(y,x)=p(xy)p(y)
由于随机变量的顺序无关紧要,所以上面两个式子是等价的。

贝叶斯公式
这个公式可以由乘法法则推出。(也被称为概率逆(probabilistic inverse))
在这里插入图片描述

the posterior distribution is the quantity of interest as it encapsulates all available information from the prior and the data.

在这里插入图片描述
从上图中理解,最终的后验概率就是浅蓝色部分占蓝色部分的比例。
p ( x ) p(x) p(x)称为先验概率,描述的是一些已知事件发生的概率,之后的 p ( y ∣ x ) p(y|x) p(yx)是在这些已知事件中y发生的概率称为似然概率,最后是y事件在整体中发生的概率。

举一个例子,想要知道一群人当中脾气好的女生有多少,首先,女生在人群中比例可以看成先验概率 p ( g i r l ) p(girl) p(girl),而女生中脾气好的人数比例可以看成似然概率 p ( g o o d _ t e m p e r ∣ g i r l ) p(good\_temper|girl) p(good_tempergirl),所以 p ( g i r l ∣ g o o d _ t e m p e r ) p(girl|good\_temper) p(girlgood_temper)的意思就是脾气好的人中女生的比例,但是男生中也有脾气好的,所以用女生脾气好的人数,除以所有脾气好的人数就是想要求得概率了。

似然函数(likelihood function):在该数据下,数据拟合的好坏,也就是在当前参数的情况下对真是数据的匹配情况。具体来说就是在给的那个参数的情况下,取得预期值的概率的大小,即 p ( x ∣ θ ) p(x|\theta) p(xθ)

边际似然(marginal likelihood/evidence)
p ( y ) : = ∫ p ( y ∣ x ) p ( x ) d x = E X [ p ( y ∣ x ) ] p(\boldsymbol y):= \int p(\boldsymbol y|\boldsymbol x)p(\boldsymbol x)d \boldsymbol x=\mathbb E_X[p(\boldsymbol y|\boldsymbol x)] p(y):=p(yx)p(x)dx=EX[p(yx)]

由上式可知,边际似然是与x相互独立的,这也被称为期望似然概率。

摘要统计和独立性(Summary Statistics and Independence)

摘要统计:In descriptive statistics, summary statistics are used to summarize a set of observations, in order to communicate the largest amount of information as simply as possible
实际上就是用一种尽可能简洁得方式概括数据的信息。

均值和协方差(Means and Covariances)

数学期望(Expected Value)
g : R → R , X ∼ p ( x ) E X [ g ( x ) ] = { ∫ X g ( x ) p ( x ) d x , c o n t i n u o u s ∑ x ∈ X g ( x ) p ( x ) , d i s c r e t e g:\mathbb R\rightarrow\mathbb R,\quad X \sim p(x) \\ \\ \mathbb E_X[g(x)]=\left\{\begin{array}{ll}\int_\mathcal Xg(x)p(x)dx,\quad continuous\\ \\ \sum\limits_{x\in\mathcal X}g(x)p(x),\quad discrete\end{array}\right. g:RR,Xp(x)EX[g(x)]=Xg(x)p(x)dx,continuousxXg(x)p(x),discrete
注意这个式子中是函数值乘以对应的概率值,所以最终得到的是映射值得概率均值。对于由有限个一维随机变量组成得数组:
E X [ g ( x ) ] = [ E X 1 [ g ( x 1 ) ] ⋮ E X D [ g ( x D ) ] ] ∈ R D \mathbb{E}_{X}[g(\boldsymbol{x})]=\left[\begin{array}{c}\mathbb{E}_{X_{1}}\left[g\left(x_{1}\right)\right] \\ \vdots \\ \mathbb{E}_{X_{D}}\left[g\left(x_{D}\right)\right]\end{array}\right] \in \mathbb{R}^{D} EX[g(x)]=EX1[g(x1)]EXD[g(xD)]RD
数学期望满足线性算子的性质:
E X [ f ( x ) ] = ∫ f ( x ) p ( x ) d x = ∫ [ a g ( x ) + b h ( x ) ] p ( x ) d x = a ∫ g ( x ) p ( x ) d x + b ∫ h ( x ) p ( x ) d x = a E X [ g ( x ) ] + b E X [ h ( x ) ] \begin{aligned} \mathbb{E}_{X}[f(\boldsymbol{x})] &=\int f(\boldsymbol{x}) p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} \\ &=\int[a g(\boldsymbol{x})+b h(\boldsymbol{x})] p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} \\ &=a \int g(\boldsymbol{x}) p(\boldsymbol{x}) \mathrm{d} x+b \int h(\boldsymbol{x}) p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} \\ &=a \mathbb{E}_{X}[g(\boldsymbol{x})]+b \mathbb{E}_{X}[h(\boldsymbol{x})] \end{aligned} EX[f(x)]=f(x)p(x)dx=[ag(x)+bh(x)]p(x)dx=ag(x)p(x)dx+bh(x)p(x)dx=aEX[g(x)]+bEX[h(x)]
均值(Mean)
均值是描述映射前的数据的情况。
对于一个随机变量 X X X,其中 x ∈ R D x\in \mathbb R^D xRD
所以:

E X [ x ] = [ E X 1 [ x 1 ] ⋮ E X D [ x D ] ] ∈ R D \mathbb E_X[\boldsymbol x]=\begin{bmatrix} \mathbb E_{X_1}[x_1]\\\vdots\\ \mathbb E_{X_D}[x_D]\end{bmatrix}\in R^D EX[x]=EX1[x1]EXD[xD]RD
E X d [ x d ] : = { ∫ X x d p ( x d ) d x d  if  X  is a continuous random variable  ∑ x i ∈ X x i p ( x d = x i )  if  X  is a discrete random variable  \mathbb{E}_{X_{d}}\left[x_{d}\right]:=\left\{\begin{array}{ll} \int_{\mathcal{X}} x_{d} p\left(x_{d}\right) \mathrm{d} x_{d} & \text { if } X \text { is a continuous random variable } \\ \sum_{x_{i} \in \mathcal{X}} x_{i} p\left(x_{d}=x_{i}\right) & \text { if } X \text { is a discrete random variable } \end{array}\right. EXd[xd]:={Xxdp(xd)dxdxiXxip(xd=xi) if X is a continuous random variable  if X is a discrete random variable 

中位数(median)
一组数据中大于一遍数据而小于另一边数据的数字。中位数能够有效地应对异常值。
众数(mode)
一组数据中出现次数最多的数字。在连续随机变量中,众数是概率密度最大的数。

上面两种数字对于高维的数据的处理时比较麻烦? 在高维数据中,各个维度的数值大小判断准则不统一。

协方差(Covariance):
协方差描述两个随机变量之间的相互关系(衡量两个随机变量的联合变化程度)。
单变量:
X , Y ∈ R X,Y\in \mathbb R X,YR
Cov ⁡ X , Y [ x , y ] : = E X , Y [ ( x − E X [ x ] ) ( y − E Y [ y ] ) ] \operatorname {Cov}_{X,Y}[x,y]:=\mathbb E_{X,Y}[(x-\mathbb E_X[x])(y-\mathbb E_Y[y])] CovX,Y[x,y]:=EX,Y[(xEX[x])(yEY[y])]
利用线性性质,可以将上式化简为:
C o v [ x , y ] = E [ x y ] − E [ x ] E [ y ] Cov[x,y]=\mathbb E[xy]-\mathbb E[x]\mathbb E[y] Cov[x,y]=E[xy]E[x]E[y]
随机变量与自己本身的协方差称为方差(variance),即 C o v [ x , x ] Cov[x,x] Cov[x,x],表示为 V X [ x ] \mathbb V_X[x] VX[x],方差的开根之后的值称为标准偏差(standard deviation),表示为 σ ( x ) \sigma (x) σ(x)
多变量:
在这里插入图片描述
多变量方差:
在这里插入图片描述
设随机变量 X X X x ∈ R D x\in \mathbb R^D xRD, 均值向量 μ ∈ R D \mu\in \mathbb R^D μRD:
V X [ x ] = Cov ⁡ X [ x , x ] = E X [ ( x − μ ) ( x − μ ) ⊤ ] = E X [ x x ⊤ ] − E X [ x ] E X [ x ] ⊤ = [ Cov ⁡ [ x 1 , x 1 ] Cov ⁡ [ x 1 , x 2 ] … Cov ⁡ [ x 1 , x D ] Cov ⁡ [ x 2 , x 1 ] Cov ⁡ [ x 2 , x 2 ] … Cov ⁡ [ x 2 , x D ] ⋮ ⋮ ⋱ ⋮ Cov ⁡ [ x D , x 1 ] … … Cov ⁡ [ x D , x D ] ] \begin{aligned} \mathbb{V}_{X}[\boldsymbol{x}] &=\operatorname{Cov}_{X}[\boldsymbol{x}, \boldsymbol{x}] \\ &=\mathbb{E}_{X}\left[(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{\top}\right]=\mathbb{E}_{X}\left[\boldsymbol{x} \boldsymbol{x}^{\top}\right]-\mathbb{E}_{X}[\boldsymbol{x}] \mathbb{E}_{X}[\boldsymbol{x}]^{\top} \\ &=\left[\begin{array}{cccc} \operatorname{Cov}\left[x_{1}, x_{1}\right] & \operatorname{Cov}\left[x_{1}, x_{2}\right] & \ldots & \operatorname{Cov}\left[x_{1}, x_{D}\right] \\ \operatorname{Cov}\left[x_{2}, x_{1}\right] & \operatorname{Cov}\left[x_{2}, x_{2}\right] & \ldots & \operatorname{Cov}\left[x_{2}, x_{D}\right] \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{Cov}\left[x_{D}, x_{1}\right] & \ldots & \ldots & \operatorname{Cov}\left[x_{D}, x_{D}\right] \end{array}\right] \end{aligned} VX[x]=CovX[x,x]=EX[(xμ)(xμ)]=EX[xx]EX[x]EX[x]=Cov[x1,x1]Cov[x2,x1]Cov[xD,x1]Cov[x1,x2]Cov[x2,x2]Cov[x1,xD]Cov[x2,xD]Cov[xD,xD]
上式中的矩阵称为协方差矩阵(covariance matrix),是一个对称半正定的矩阵。它描述了数据的分散情况。对角线元素为方差,非对角线元素为互协方差(cross-covariance)

相关性(Correlation)
相关性描述两个随机变量之间的关系。
corr ⁡ [ x , y ] = Cov ⁡ [ x , y ] V [ x ] V [ y ] ∈ [ − 1 , 1 ] . \operatorname{corr}[x, y]=\frac{\operatorname{Cov}[x, y]}{\sqrt{\mathbb{V}[x] \mathbb{V}[y]}} \in[-1,1] . corr[x,y]=V[x]V[y] Cov[x,y][1,1].
相关性矩阵就是标准化的随机变量(standardized random variables),即 x / σ ( x ) x/\sigma(x) x/σ(x)

If the greater values of one variable mainly correspond with the greater values of the other variable, and the same holds for the lesser values (that is, the variables tend to show similar behavior), the covariance is positive.

正相关与负相关
在这里插入图片描述

样本均值和样本方差(Empirical Means and Covariances)

就是将原先的数据中拿出一部分的数据作为样本,所得出的均值和方差。之前提到的均值是全平均值(population mean),方差也一样。
在这里插入图片描述

方差的三种表达式(Three Expressions for the Variance)

方差的定义式,但是因为需要求均值,又要将样本数逐一进行运算,所以需要将数据遍历两遍。
V X [ x ] : = E X [ ( x − μ ) 2 ] \mathbb{V}_{X}[x]:=\mathbb{E}_{X}\left[(x-\mu)^{2}\right] VX[x]:=EX[(xμ)2]
对原始式进行整理得到下式,这个式子称为变量的原始分数形式(raw-score formula for variance),虽然这样可以避免对数据进行两次的遍历,但是这在数值上是不稳定的(numerically unstable)。(?精度上的损失?)
V X [ x ] = E X [ x 2 ] − ( E X [ x ] ) 2 \mathbb{V}_{X}[x]=\mathbb{E}_{X}\left[x^{2}\right]-\left(\mathbb{E}_{X}[x]\right)^{2} VX[x]=EX[x2](EX[x])2
方差还可以理解成数据中的所有数字与其他所有的数字之间的差距的均值。
1 N 2 ∑ i , j = 1 N ( x i − x j ) 2 = 2 [ 1 N ∑ i = 1 N x i 2 − ( 1 N ∑ i = 1 N x i ) 2 ] \frac{1}{N^{2}} \sum_{i, j=1}^{N}\left(x_{i}-x_{j}\right)^{2}=2\left[\frac{1}{N} \sum_{i=1}^{N} x_{i}^{2}-\left(\frac{1}{N} \sum_{i=1}^{N} x_{i}\right)^{2}\right] N21i,j=1N(xixj)2=2N1i=1Nxi2(N1i=1Nxi)2

there is an equivalence between the pairwise distances and the distances from the center of the set of points

随机变量的加法运算和变换(Sums and Transformations of Random Variables)

在这里插入图片描述

对于一个仿射变换 y = A x + b \boldsymbol y=\boldsymbol A x+\boldsymbol b y=Ax+b有:
在这里插入图片描述
在这里插入图片描述

统计独立性(Statistical Independence)

在这里插入图片描述
当两个随机变量相互独立的时候,有以下性质。注意最后一个,当两个随机变量相互独立的时候,相关性等于0,但是相关性等于0的时候,不能说明两个随机变量相互独立,因为独立性是描述随机变量之间的线性独立,假设随机变量之间的关系不是线性的,那么相关性为0时,不能说这两个随机变量是相互独立的。

两随机变量相互独立时的一些性质:
p ( y ∣ x ) = p ( y ) p ( x ∣ y ) = p ( x ) V X , Y [ x + y ] = V X [ x ] + V Y [ y ] Cov ⁡ X , Y [ x , y ] = 0 \begin{aligned}&p(\boldsymbol{y} \mid \boldsymbol{x})=p(\boldsymbol{y})\\&p(\boldsymbol{x} \mid \boldsymbol{y})=p(\boldsymbol{x}) \\ &\mathbb{V}_{X, Y}[\boldsymbol{x}+\boldsymbol{y}]=\mathbb{V}_{X}[\boldsymbol{x}]+\mathbb{V}_{Y}[\boldsymbol{y}]\\ &\operatorname{Cov}_{X, Y}[\boldsymbol{x}, \boldsymbol{y}]=\mathbf{0}\end{aligned} p(yx)=p(y)p(xy)=p(x)VX,Y[x+y]=VX[x]+VY[y]CovX,Y[x,y]=0

独立均匀分布(independent and identically distributed (i.i.d.))
变量之间相互独立,而且来自于同一个分布中。
条件独立(conditional independence)
在这里插入图片描述
表示为 X ⊥  ⁣ ⁣ ⁣ ⊥ Y ∣ Z X \perp\!\!\! \perp Y \mid Z XYZ
p ( x , y ) = p ( y ∣ x ) p ( x ) p ( x , y ∣ z ) = p ( x ∣ z ) p ( y ∣ z ) , z ∈ Z p(x,y)=p(y|x)p(x)\\ p(x,y|z)=p(x|z)p(y|z),\quad z\in \mathcal Z p(x,y)=p(yx)p(x)p(x,yz)=p(xz)p(yz),zZ
利用第一个式子将第二个式子的左边展开,得到:
p ( x , y ∣ z ) = p ( x ∣ y , z ) p ( y ∣ z ) p(\boldsymbol x, \boldsymbol y|z)=p(\boldsymbol x|\boldsymbol y,z)p(\boldsymbol y|z) p(x,yz)=p(xy,z)p(yz)
与原始比较可以得到:
p ( x ∣ y , z ) = p ( x ∣ z ) p(x|y,z)=p(x|z) p(xy,z)=p(xz)
这样可以得到条件独立的另一个定义,也就是我们知道y这个结论,对最终的结果没有影响。原式可以理解为在z的条件下,两个随机变量相互独立。统计独立可以看成条件独立的一个特例: X ⊥  ⁣ ⁣ ⁣ ⊥ Y ∣ ̸  ⁣ 0 X \perp\!\!\! \perp Y \mid \not\!0 XY0

随机变量的内积(Inner Products of Random Variables)

两个相互独立的随机变量 X , Y X,Y X,Y,有以下性质:( Cov ⁡ [ x , y ] = 0 \operatorname {Cov}[x,y]=0 Cov[x,y]=0)
V ( x + y ) = V ( x ) + V ( y ) \mathbb V(x+y)=\mathbb V(x)+\mathbb V(y) V(x+y)=V(x)+V(y)
由于方差是立方项,所以上式可以联想到勾股定理(the Pythagorean theorem)。
(每一个随机变量都可以看成一个向量空间中的向量)假设对于随机变量之间的内积的定义如下:
< X , Y > : = Cov ⁡ [ x , y ] <X,Y> :=\operatorname{Cov}[x,y] <X,Y>:=Cov[x,y]
根据这个定义可以得到随机变量的长度:

∥ X ∥ = Cov ⁡ [ x , x ] = V [ x ] = σ [ x ] \| X\| = \sqrt{\operatorname{Cov}[x,x]}=\sqrt{\mathbb V[x]}=\sigma[x] X=Cov[x,x] =V[x] =σ[x]
这里可以看到,随机变量“越长”,所对应的数据就越分散。
还可以根据两向量的角度的定义得到:
cos ⁡ θ = ⟨ X , Y ⟩ ∥ X ∥ ∥ Y ∥ = Cov ⁡ [ x , y ] V [ x ] V [ y ] \cos \theta=\frac{\langle X, Y\rangle}{\|X\|\|Y\|}=\frac{\operatorname{Cov}[x, y]}{\sqrt{\mathbb{V}[x] \mathbb{V}[y]}} cosθ=XYX,Y=V[x]V[y] Cov[x,y]
可以看到两个随机变量的“夹角”的余弦值就是相关性( corr ⁡ [ x , y ] = Cov ⁡ [ x , y ] V [ x ] V [ y ] ∈ [ − 1 , 1 ] . \operatorname{corr}[x, y]=\frac{\operatorname{Cov}[x, y]}{\sqrt{\mathbb{V}[x] \mathbb{V}[y]}} \in[-1,1] . corr[x,y]=V[x]V[y] Cov[x,y][1,1].
所以,当两个随机变量相会垂直的时候,也就是 X ⊥ Y X\perp Y XY时, ⟨ X , Y ⟩ = 0 \langle X,Y\rangle=0 X,Y=0这时候二者的夹角为90°,对应的余弦值为0,也就是说这两个随机变量时不相关的。

之后提到用用欧几里得距离去比较两个随机变量的分布并不是最好的方式,这里提到了一个领域信息几何(information geometry)一个新名词(manifold),这部分没有弄得很清楚,留到后续再进行深入学习

高斯分布(Gaussian Distribution)

一维随机变量的高斯分布:
p ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) p\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) p(xμ,σ2)=2πσ2 1exp(2σ2(xμ)2)
其中, μ \mu μ代表均值, σ \sigma σ代表随机变量得方差。
对于多元正态分布:(multivariate Gaussian distribution)( μ \mu μ为均值向量, Σ \Sigma Σ为协方差矩阵)
p ( x ∣ μ , Σ ) = ( 2 π ) − D 2 ∣ Σ ∣ − 1 2 exp ⁡ ( − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) p(\boldsymbol{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma})=(2 \pi)^{-\frac{D}{2}}|\boldsymbol{\Sigma}|^{-\frac{1}{2}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\top} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right) p(xμ,Σ)=(2π)2DΣ21exp(21(xμ)Σ1(xμ))

其中, x ∈ R D , p ( x ) = N ( x ∣ μ , Σ )   o r   X ∼ N ( μ , Σ ) x\in\mathbb R^D,p(x)=\mathcal N(x|\mu,\Sigma) \ or \ X \sim\mathcal N(\mu,\Sigma) xRD,p(x)=N(xμ,Σ) or XN(μ,Σ)
在图像中表示为:
在这里插入图片描述
μ = 0 , Σ = I \mu=0,\Sigma=I μ=0,Σ=I时,将这种分布称为标准正态分布(standard normal distribution.)

高斯分布的边际分布和条件分布仍旧是高斯分布(Marginals and Conditionals of Gaussians are Gaussians)

假设 X 、 Y X、Y XY是多维随机变量,则有:
p ( x , y ) = N ( [ μ x μ y ] , [ Σ x x Σ x y Σ y x Σ y y ] ) p(\boldsymbol{x}, \boldsymbol{y})=\mathcal{N}\left(\left[\begin{array}{l}\boldsymbol{\mu}_{x} \\ \boldsymbol{\mu}_{y}\end{array}\right],\left[\begin{array}{ll}\boldsymbol{\Sigma}_{x x} & \boldsymbol{\Sigma}_{x y} \\ \boldsymbol{\Sigma}_{y x} & \boldsymbol{\Sigma}_{y y}\end{array}\right]\right) p(x,y)=N([μxμy],[ΣxxΣyxΣxyΣyy])
在这里插入图片描述

X 、 Y X、Y XY的条件分布也是高斯分布:
p ( x ∣ y ) = N ( μ x ∣ y , Σ x ∣ y ) μ x ∣ y = μ x + Σ x y Σ y y − 1 ( y − μ y ) Σ x ∣ y = Σ x x − Σ x y Σ y y − 1 Σ y x \begin{aligned} p(\boldsymbol{x} \mid \boldsymbol{y}) &=\mathcal{N}\left(\boldsymbol{\mu}_{x \mid y}, \boldsymbol{\Sigma}_{x \mid y}\right) \\ \boldsymbol{\mu}_{x \mid y} &=\boldsymbol{\mu}_{x}+\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1}\left(\boldsymbol{y}-\boldsymbol{\mu}_{y}\right) \\ \boldsymbol{\Sigma}_{x \mid y} &=\Sigma_{x x}-\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1} \Sigma_{y x} \end{aligned} p(xy)μxyΣxy=N(μxy,Σxy)=μx+ΣxyΣyy1(yμy)=ΣxxΣxyΣyy1Σyx
在这里插入图片描述
这是 x 2 = − 1 x_2=-1 x2=1是的条件分布。

边际分布:
p ( x ) = ∫ p ( x , y ) d y = N ( x ∣ μ x , Σ x x ) p(\boldsymbol{x})=\int p(\boldsymbol{x}, \boldsymbol{y}) \mathrm{d} \boldsymbol{y}=\mathcal{N}\left(\boldsymbol{x} \mid \boldsymbol{\mu}_{x}, \boldsymbol{\Sigma}_{x x}\right) p(x)=p(x,y)dy=N(xμx,Σxx)
在这里插入图片描述

高斯密度函数的乘积(Product of Gaussian Densities)

对于两个高斯函数 N ( x ∣ a , A ) , N ( x ∣ b , B ) \mathcal N(x|a,A),\mathcal N(x|b,B) N(xa,A),N(xb,B)二者的乘积为: c N ( x ∣ c , C ) c\mathcal N(x|c,C) cN(xc,C),其中:
C = ( A − 1 + B − 1 ) − 1 c = C ( A − 1 a + B − 1 b ) c = ( 2 π ) − D 2 ∣ A + B ∣ − 1 2 exp ⁡ ( − 1 2 ( a − b ) ⊤ ( A + B ) − 1 ( a − b ) ) \begin{aligned} C &=\left(A^{-1}+B^{-1}\right)^{-1} \\ c &=C\left(A^{-1} a+B^{-1} b\right) \\ c &=(2 \pi)^{-\frac{D}{2}}|A+B|^{-\frac{1}{2}} \exp \left(-\frac{1}{2}(a-b)^{\top}(A+B)^{-1}(a-b)\right) \end{aligned} Ccc=(A1+B1)1=C(A1a+B1b)=(2π)2DA+B21exp(21(ab)(A+B)1(ab))

比例常数c也可以写成:
c = N ( a ∣ b , A + B ) = N ( b ∣ a , A + B ) c=\mathcal N(a|b,A+B)=\mathcal N(b|a,A+B) c=N(ab,A+B)=N(ba,A+B)

和运算和线性变换(Sums and Linear Transformations)

当两个相互独立的且满足高斯分布的随机变量相加所得到的随机变量也满足高斯分布:
p ( x + y ) = N ( μ x + μ y , Σ x + Σ y ) p(x+y)=\mathcal N(\mu_x+\mu_y,\Sigma_x+\Sigma_y) p(x+y)=N(μx+μy,Σx+Σy)
x + y x+y x+y的均值和协方差可以通过之前提到的和运算的性质得到( E ( x + y ) = E ( x ) + E ( y ) , e t c \mathbb E(x+y)=\mathbb E(x)+\mathbb E(y), etc E(x+y)=E(x)+E(y),etc

在这里插入图片描述

可以利用加权和来定义一个满足高斯分布的随机变量(或者是将一个高斯随机变量分解成两个不同的满足高斯分布的随机变量);

p ( x ) = α p 1 ( x ) + ( 1 − α ) p 2 ( x ) ,   1 > α > 0 , ( μ 1 , σ 1 2 ) ≠ ( μ 2 , σ 2 2 ) p(x)=\alpha p_1(x)+(1-\alpha)p_2(x), \ 1\gt\alpha\gt0,(\mu_1,\sigma^2_1)\ne (\mu_2,\sigma_2^2) p(x)=αp1(x)+(1α)p2(x), 1>α>0,(μ1,σ12)=(μ2,σ22)
其期望值和方差可以表示为:
E [ x ] = α μ 1 + ( 1 − α ) μ 2 \mathbb{E}[x]=\alpha \mu_{1}+(1-\alpha) \mu_{2} E[x]=αμ1+(1α)μ2
V [ x ] = [ α σ 1 2 + ( 1 − α ) σ 2 2 ] + ( [ α μ 1 2 + ( 1 − α ) μ 2 2 ] − [ α μ 1 + ( 1 − α ) μ 2 ] 2 ) \mathbb{V}[x]=\left[\alpha \sigma_{1}^{2}+(1-\alpha) \sigma_{2}^{2}\right]+\left(\left[\alpha \mu_{1}^{2}+(1-\alpha) \mu_{2}^{2}\right]-\left[\alpha \mu_{1}+(1-\alpha) \mu_{2}\right]^{2}\right) V[x]=[ασ12+(1α)σ22]+([αμ12+(1α)μ22][αμ1+(1α)μ2]2)

原书p202有上面两个公式的推导过程,主要就是利用写出对应的定义式,也就是积分的形式,然后再利用积分的性质进行变换。对于方差公式的推导,可以利用方差与期望值之间的关系式。

总方差定律(law of total variance)
V X [ x ] = E Y [ V X [ x ∣ y ] ] + V Y [ E X [ x ∣ y ] ] \mathbb V_X[x]=\mathbb E_Y[\mathbb V_X[x|y]]+\mathbb V_Y[\mathbb E_X[x|y]] VX[x]=EY[VX[xy]]+VY[EX[xy]]

对一个满足高斯分布的随机变量进行线性变换,即对 X X X进行线性变换 A x Ax Ax,可以得到一个均值为0,方差为 A A ⊤ AA^\top AA的高斯变量。而对一个高斯随机变量加上一个常数向量,高斯随机变量的均值会发生变化,但是方差会不发生变化。所以,对一个高斯变量进行线性变换或者是仿射变换都不会改变这个变量的分布。

假设随机变量Y为X经过线性变换之后的随机变量,即 A x = y Ax = y Ax=y,所以有:
E [ y ] = E [ A x ] = A E [ x ] = A μ \mathbb E[y]=\mathbb E[Ax]=A\mathbb E[x]=A\mu E[y]=E[Ax]=AE[x]=Aμ
V [ y ] = V [ A x ] = A V [ x ] A ⊤ = A Σ A ⊤ \mathbb V[y]=\mathbb V[Ax]=A\mathbb V[x]A^\top=A\Sigma A^\top V[y]=V[Ax]=AV[x]A=AΣA
所以随机变量Y可以写成:
p ( y ) = N ( y ∣ A μ , A Σ A ⊤ ) p(y) = \mathbb N(y|A\mu, A\Sigma A^\top) p(y)=N(yAμ,AΣA)

假设一个随机变量的均值是另一个随机变量经过线性变换之后得到的。假设变换矩阵 A ∈ R M × N , M ≥ N \boldsymbol A\in\mathbb R^{M\times N}, M\ge N ARM×N,MN高斯随机变量 Y Y Y y ∈ R M y\in\mathbb R^M yRM,其均值为 A x \boldsymbol A\boldsymbol x Ax,可以表示为:
p ( y ) = N ( y ∣ A x , Σ ) p(\boldsymbol y)=\mathcal N(y|\boldsymbol A\boldsymbol x,\Sigma) p(y)=N(yAx,Σ)
当我们想要求 p ( x ) p(\boldsymbol x) p(x)的概率分布时,可以由 X 、 Y X、Y XY的关系得到 x = A − 1 y x=A^{-1}y x=A1y,但是当A不可逆时,这时候需要用到伪逆,所以有:
x = ( A A ⊤ ) − 1 A ⊤ y x = (AA^\top)^{-1}A^\top y x=(AA)1Ay
所以随机变量 X X X的分布为:
p ( x ) = N ( x ∣ ( A ⊤ A ) − 1 A ⊤ y , ( A ⊤ A ) − 1 A ⊤ Σ A ( A ⊤ A ) − 1 ) p(\boldsymbol{x})=\mathcal{N}\left(\boldsymbol{x} \mid\left(\boldsymbol{A}^{\top} \boldsymbol{A}\right)^{-1} \boldsymbol{A}^{\top} \boldsymbol{y},\left(\boldsymbol{A}^{\top} \boldsymbol{A}\right)^{-1} \boldsymbol{A}^{\top} \boldsymbol{\Sigma} \boldsymbol{A}\left(\boldsymbol{A}^{\top} \boldsymbol{A}\right)^{-1}\right) p(x)=N(x(AA)1Ay,(AA)1AΣA(AA)1)

从多元高斯分布中取样(Sampling from Multivariate Gaussian Distributions)

取样步骤:
In the case of a multivariate Gaussian, this process consists of three stages:
first, we need a source of pseudo-random numbers that provide a uniform sample in the interval [0,1];
second, we use a non-linear transformation such as the Box-Muller transform (Devroye, 1986) to obtain a sample from a univariate Gaussian;
and third, we collate a vector of these samples to obtain a sample from a multivariate standard normal N ( 0 , I ) \mathcal N(0,I) N(0,I)

想要从多维高斯分布 N ( μ , Σ ) \mathcal N(\mu,\Sigma) N(μ,Σ)中取样,可以利用高斯随机变量线性变换的性质:
假设: x ∼ N ( 0 , I ) x\sim \mathcal N(0,I) xN(0,I),所以 y = A x + μ , w h e r e   A A ⊤ = Σ . y=Ax+\mu,where\ AA^\top=\Sigma. y=Ax+μwhere AA=Σ.
所以 y ∼ N ( μ , Σ ) y\sim\mathcal N(\mu,\Sigma) yN(μ,Σ)
其中一种选取A矩阵的方法是使用Cholesky decomposition将协方差矩阵进行拆分。(但是需要矩阵是对称且正定的)

共轭及指数族(Conjugacy and the Exponential Family)

对概率分布的目标:
在这里插入图片描述
指数族的优点:
provides the right balance of generality while retaining favorable computation and inference properties

伯努利分布(Bernoulli distribution)

一次伯努利试验的结果的概率:
对于一个二元随机变量 X X X x ∈ { 0 , 1 } x\in\{0,1\} x{0,1},伯努利分布是由一个连续的参数 μ ∈ [ 0 , 1 ] \mu\in[0,1] μ[0,1]控制,可以表示为 Ber ⁡ ( μ ) \operatorname{Ber}(\mu) Ber(μ):
p ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x , x ∈ { 0 , 1 } E [ x ] = μ , V [ x ] = μ ( 1 − μ ) \begin{aligned} &p(x|\mu)=\mu^x(1-\mu)^{1-x},\quad x\in\{0,1\}\\ &\mathbb E[x] = \mu,\\ &\mathbb V[x]=\mu(1-\mu)\end{aligned} p(xμ)=μx(1μ)1x,x{0,1}E[x]=μ,V[x]=μ(1μ)

二项式分布(Binomial Distribution)

多个伯努利实验的概率分布称为二项式分布: Bin ⁡ ( N , μ ) \operatorname{Bin}(N,\mu) Bin(N,μ)(简单来说第一个参数就是实验次数,第二个参数就是成功概率)
p ( m ∣ N , μ ) = ( N m ) μ m ( 1 − μ ) N − m E [ m ] = N μ V [ m ] = N μ ( 1 − μ ) \begin{aligned} p(m \mid N, \mu) &=\left(\begin{array}{l}N \\ m\end{array}\right) \mu^{m}(1-\mu)^{N-m} \\ \mathbb{E}[m] &=N \mu \\ \mathbb{V}[m] &=N \mu(1-\mu) \end{aligned} p(mN,μ)E[m]V[m]=(Nm)μm(1μ)Nm=Nμ=Nμ(1μ)

贝塔分布(Beta Distribution)

Beta ⁡ ( α , β ) \operatorname{Beta}(\alpha, \beta) Beta(α,β):

p ( μ ∣ α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) μ α − 1 ( 1 − μ ) β − 1 p(\mu|\alpha,\beta) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\mu^{\alpha-1}(1-\mu)^{\beta-1} p(μα,β)=Γ(α)Γ(β)Γ(α+β)μα1(1μ)β1
E [ μ ] = α α + β , V [ μ ] = α β ( α + β ) 2 ( α + β + 1 ) \mathbb E[\mu] = \frac{\alpha}{\alpha+\beta},\quad \mathbb V[\mu] = \frac{\alpha \beta}{(\alpha+\beta)^2(\alpha+\beta+1)} E[μ]=α+βα,V[μ]=(α+β)2(α+β+1)αβ
其中 Γ ( ⋅ ) \Gamma(\cdot) Γ()定义为:

Γ ( t ) : = ∫ 0 ∞ x t − 1 exp ⁡ ( − x ) d x , t > 0 Γ ( t + 1 ) = t Γ ( t ) \begin{aligned}&\Gamma(t):=\int^\infin_0x^{t-1}\operatorname{exp}(-x)dx,\quad t\gt0 \\ &\Gamma(t+1)=t\Gamma(t)\end{aligned} Γ(t):=0xt1exp(x)dx,t>0Γ(t+1)=tΓ(t)
贝塔函数在不同参数下的图像:
在这里插入图片描述
贝塔分布在不同参数下的一些特性:
在这里插入图片描述

共轭(Conjugacy)

先验分布(Prior distribution)
先验分布就是你在取得实验观测值以前对一个参数概率分布的 主观判断

比如说你在抛硬币之前,你会认为取得正面的结果的 概率为为0.5
当我们假设实验结果的分布满足均匀分布,这时候称为无信息先验(noninformative prior) 也就是说(继续上面的例子)你抛的硬币是不均匀的,所以,取得正面的概率为 0 ∼ 1 0\sim 1 01上的均匀分布,也就是说什么可能都有。随着实验的进行,这样的分布会根据实验结果被不断矫正。
在这里插入图片描述
在这里插入图片描述
这样的概率分布也不会排除一些极端的结果的出现的概率。

共轭先验(Conjugacy Prior)
在这里插入图片描述
也就是对于一个似然函数的先验分布假设成某种分布,然后利用贝叶斯公式计算出对应的后验分布,有时候得到的结果的形式是一致的。

假设一个二项式分布 x ∼ Bin ⁡ ( N , μ ) x\sim\operatorname{Bin}(N, \mu) xBin(N,μ):
p ( x ∣ N , μ ) = ( N x ) μ x ( 1 − μ ) N − x , x = 0 , 1 , … , N p(x|N,\mu)=\begin{pmatrix}N\\ x \end{pmatrix}\mu^x(1-\mu)^{N-x},\quad x=0,1,\dots,N p(xN,μ)=(Nx)μx(1μ)Nx,x=0,1,,N
它的参数 μ \mu μ满足 μ ∼ Beta ⁡ ( α , β ) \mu \sim\operatorname{Beta}(\alpha,\beta) μBeta(α,β):
p ( μ ∣ α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) μ α − 1 ( 1 − μ ) β − 1 p(\mu|\alpha,\beta) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\mu^{\alpha-1}(1-\mu)^{\beta-1} p(μα,β)=Γ(α)Γ(β)Γ(α+β)μα1(1μ)β1
假设在x=h时:
p ( μ ∣ x = h , N , α , β ) ∝ p ( x ∣ N , μ ) p ( μ ∣ α , β ) ∝ μ h ( 1 − μ ) ( N − h ) μ α − 1 ( 1 − μ ) β − 1 = μ h + α − 1 ( 1 − μ ) ( N − h ) + β − 1 ∝ Beta ⁡ ( h + α , N − h + β ) \begin{aligned}p(\mu|x=h,N,\alpha,\beta)&\propto p(x|N,\mu)p(\mu|\alpha,\beta)\\ &\propto\mu^h(1-\mu)^{(N-h)}\mu^{\alpha-1}(1-\mu)^{\beta-1}\\ &= \mu^{h+\alpha-1}(1-\mu)^{(N-h)+\beta-1} \\ &\propto \operatorname{Beta}(h+\alpha,N-h+\beta)\end{aligned} p(μx=h,N,α,β)p(xN,μ)p(μα,β)μh(1μ)(Nh)μα1(1μ)β1=μh+α1(1μ)(Nh)+β1Beta(h+α,Nh+β)
所以,可以注意到这里的先验概率分布与后验概率分布的形式是一致的。

似然函数(Likelihood Function): f ( x ∣ θ ) f(x|\theta) f(xθ)说明我们观测的数据 x x x是在参数 θ \theta θ下得来的。

由于利用贝叶斯公式计算后验概率分布的时候,需要用到边际分布概率,如果随机变量是连续的,那么就会需要使用积分,这会导致很多不必要的计算。有了先验共轭,我们就 不用计算复杂的含有积分的贝叶斯公式 便可得到后验分布。
以下是常见的似然函数的先验共轭:
在这里插入图片描述

充分统计量(Sufficient Statistics)

充分统计量:(一个通俗的比喻解释)
假设你辛辛苦苦收集的500个数据全都写在了一张纸上,这些数据是给你写论文用的,非常重要。突然有一天你的狗把你这张写满数据的纸吃掉了,这个时候假如你的数据满足正态分布,且你已经提前把这些数据的均值和方差记录在另外一张纸上了,那你的狗也没坏了什么大事——因为这两个充分统计量包含了这500个数据的所有有用信息。
sufficient statistics: the idea that there are statistics that will contain all available information that can be inferred from data corresponding to the distribution under consideration. In other words, sufficient statistics carry all the information needed to make inference about the population, that is, they are the statistics that are sufficient to represent the distribution.(像是原先的数据中的一个子集,而这个子集可以代表所有的数据,也就是去除了一些冗余的数据)

如果向量 ϕ ( x ) \phi(x) ϕ(x)包含 θ 0 \theta_0 θ0的所有的信息,那么将 ϕ ( x ) \phi(x) ϕ(x)称为充分统计量

接下来是充分统计的严格定义:
在这里插入图片描述
也就是说一个概率密度函数可以被分解为独立于参数 θ \theta θ的部分和虽然依赖于 θ \theta θ但仅仅是依附于 ϕ ( x ) \phi(x) ϕ(x)的(?)

The more interesting case is that p(x | θ) is dependent only on φ(x) and not x itself. In this case, φ(x) is a sufficient statistic for θ.

Explain this
在这里插入图片描述

所以我们可以使用一部分数据去估计样品分布的参数。

指数族(Exponential Family)

对分布的三种可能的抽象:
1.已知分布类型和对应的参数
2.已知类型,需要根据数据确定此分布类型的参数值。
3.考虑这种分布的族。
指数族
在这里插入图片描述
这里的内积可以是任何类型的内积。但在本节当中只考虑点积。其中的 A ( θ ) A(\boldsymbol \theta) A(θ)被称为对数分割函数(log-partition function)是一个归一化常数,能保证分布汇总成或者积分成1.
为了更好地理解指数族,我们可以将原先的定义式写成:

p ( x ∣ θ ) ∝ exp ⁡ ( θ ⊤ ϕ ( x ) ) p(\boldsymbol x|\boldsymbol\theta)\propto\operatorname{exp}(\boldsymbol\theta^\top\phi(\boldsymbol x)) p(xθ)exp(θϕ(x))
这里的参数 θ \theta θ被称为特征参数自然参数(natural parameters)

之后给出了几个例子,但是我还是没有形成深刻的理解(待补充)

指数族能够很方便地找出分布的共轭对(conjugate pairs)
对于一个随机变量 X X X属于指数族,所以有:
p ( x ∣ θ ) = h ( x ) exp ⁡ ( ⟨ θ , ϕ ( x ) ⟩ − A ( θ ) ) p(\boldsymbol{x} \mid \boldsymbol{\theta})=h(\boldsymbol{x}) \exp (\langle\boldsymbol{\theta}, \boldsymbol{\phi}(\boldsymbol{x})\rangle-A(\boldsymbol{\theta})) p(xθ)=h(x)exp(θ,ϕ(x)A(θ))
对于所有的指数族成员都能找到一个先验共轭
p ( θ ∣ γ ) = h c ( θ ) exp ⁡ ( ⟨ [ γ 1 γ 2 ] , [ θ − A ( θ ) ] ⟩ − A c ( γ ) ) p(\boldsymbol{\theta} \mid \gamma)=h_{c}(\boldsymbol{\theta}) \exp \left(\left\langle\left[\begin{array}{l}\gamma_{1} \\ \gamma_{2}\end{array}\right],\left[\begin{array}{c}\boldsymbol{\theta} \\ -A(\boldsymbol{\theta})\end{array}\right]\right\rangle-A_{c}(\boldsymbol{\gamma})\right) p(θγ)=hc(θ)exp([γ1γ2],[θA(θ)]Ac(γ))
其中, γ = [ γ 1 γ 2 ] \gamma=\begin{bmatrix}\gamma_1\\ \gamma_2\end{bmatrix} γ=[γ1γ2],其维度为 dim ⁡ ( θ ) + 1 \operatorname{dim}(\theta)+1 dim(θ)+1。充分统计量的共轭先验为 [ θ − A ( θ ) ] \begin{bmatrix}\theta\\-A(\theta)\end{bmatrix} [θA(θ)]
这是指数族成员的共轭先验的一般形式,可以通过这个一般形式得到指数族成员的共轭先验。

变量变换和逆变换(Change of Variables/Inverse Transform)

在本节当中,我们主要讨论当一个随机变量发生变换之后的分布情况。书中主要介绍了两种方法,一种是直接使用定义,另一种是使用换元法/变数法(change-of-variable approach)

X 、 Y X、Y XY表示随机变量, x 、 y x、y xy表示随机变量在目标空间 T \mathcal T T中的取值。

在这里插入图片描述
假设两个随机变量 X 、 Y X、Y XY满足关系 y = U ( X ) y = U(X) y=U(X),根据定义可以得到 Y = y Y=y Y=y的概率分布:
P ( Y = y ) = P ( U ( X ) = y ) = P ( X = U − 1 ( y ) ) P(Y=y) = P(U(X)=y)=P(X=U^{-1}(y)) P(Y=y)=P(U(X)=y)=P(X=U1(y))

分布函数法(Distribution Function Technique)

这里是使用累积分布函数,因为累积分布函数的对变量的偏导就是概率密度函数,所以在运算的过程中可以直接将两个随机变量之间的关系带入即可。
在这里插入图片描述
假设两个随机变量 Y : = U ( X ) , X Y:=U(X),X Y:=U(X),X的分布情况已知:
F Y ( y ) = P ( Y ≤ y ) = P ( U ( X ) ≤ y ) = P ( X ≤ U − 1 ( y ) ) = F X ( U − 1 ( y ) ) F_Y(y) = P(Y\le y)=P(U(X)\le y)=P(X\le U^{-1}(y))=F_X(U^{-1}(y)) FY(y)=P(Yy)=P(U(X)y)=P(XU1(y))=FX(U1(y))
f ( y ) = d d y F Y ( y ) f(y)=\frac{d}{dy}F_Y(y) f(y)=dydFY(y)

概率积分变换(probability integral transform)
在这里插入图片描述

需要补充

通过这个变换,我们可以先从均匀分布中抽样,然后对抽样样品做对应的变换之后得到目标分布中的抽样结果。同样也可以用于假设性检验,检查样品是否来源于某一种分布当中。

换元(Change of Variables)

∫ f ( g ( x ) ) g ′ ( x ) d x = ∫ f ( u ) d u , u = g ( x ) \int f(g(x))g'(x)dx=\int f(u)du, \quad u=g(x) f(g(x))g(x)dx=f(u)du,u=g(x)
假设一个随机变量 X : x ∈ [ a , b ] X:x\in [a,b] X:x[a,b]和可逆函数 U U U,可以得到: Y = U ( X ) Y=U(X) Y=U(X),由概率密度函数的定义:
F Y ( y ) = P ( Y ≤ y ) = P ( U ( X ) ≤ y ) F_Y(y)=P(Y\le y)=P(U(X)\le y) FY(y)=P(Yy)=P(U(X)y)
因为一个可逆函数在一个区间内严格单调,且如果原函数单调递增则反函数也会是单调递增的,所以:
P ( U ( X ) ≤ y ) = P ( U − 1 ( U ( X ) ) ≤ U − 1 ( y ) ) = P ( X ≤ U − 1 ( y ) ) = ∫ a U − 1 ( y ) f ( x ) d x P(U(X)\le y)=P(U^{-1}(U(X))\le U^{-1}(y))=P(X\le U^{-1}(y))=\int^{U^{-1}(y)}_af(x)dx P(U(X)y)=P(U1(U(X))U1(y))=P(XU1(y))=aU1(y)f(x)dx
所以可以得到随机变量Y的累积概率函数:
F Y ( y ) = ∫ a U − 1 ( y ) f ( x ) d x F_Y(y)=\int^{U^{-1}(y)}_af(x)dx FY(y)=aU1(y)f(x)dx
因为概率密度函数可以通过累积概率函数求导得到,即:
f ( y ) = d d y F y ( y ) = d d y ∫ a U − 1 ( y ) f ( x ) d x f(y) = \frac{d}{dy}F_y(y)=\frac{d}{dy}\int^{U^{-1}(y)}_af(x)dx f(y)=dydFy(y)=dydaU1(y)f(x)dx
又因为:
∫ f ( U − 1 ( y ) ) U − 1 ′ ( y ) d y = ∫ f ( x ) d x w h e r e x = U − 1 ( y ) \int f\left(U^{-1}(y)\right) U^{-1^{\prime}}(y) \mathrm{d} y=\int f(x) \mathrm{d} x \quad where \quad x=U^{-1}(y) f(U1(y))U1(y)dy=f(x)dxwherex=U1(y)
将上面二式联立:
f ( y ) = d d y ∫ a U − 1 ( y ) f x ( U − 1 ( y ) ) U − 1 ′ ( y ) d y f(y)=\frac{\mathrm{d}}{\mathrm{d} y} \int_{a}^{U^{-1}(y)} f_{x}\left(U^{-1}(y)\right) U^{-1^{\prime}}(y) \mathrm{d} y f(y)=dydaU1(y)fx(U1(y))U1(y)dy
注意到 f x ( U − 1 ( y ) ) f_x(U^{-1}(y)) fx(U1(y))不是y的函数,所以可以将上式的积分为:
f ( y ) = f x ( U − 1 ( y ) ) ⋅ ( d d y U − 1 ( y ) ) f(y)=f_{x}\left(U^{-1}(y)\right) \cdot\left(\frac{\mathrm{d}}{\mathrm{d} y} U^{-1}(y)\right) f(y)=fx(U1(y))(dydU1(y))
为了让U为增函数和减函数的时候保持形式一致,可以将上式写成下面的形式:
f ( y ) = f x ( U − 1 ( y ) ) ⋅ ∣ d d y U − 1 ( y ) ∣ f(y)=f_{x}\left(U^{-1}(y)\right) \cdot\left|\frac{\mathrm{d}}{\mathrm{d} y} U^{-1}(y)\right| f(y)=fx(U1(y))dydU1(y)
上面这种方法称为换元法(change-of-variable technique)
其中, ∣ d d y U − 1 ( y ) ∣ |\frac{d}{dy}U^{-1}(y)| dydU1(y)描述了经过变换U之后的体积变化。

对于多元随机变量的也是类似的,但是由于绝对值不能用于多元方程,但是我们可以使用雅可比行列式代替原先的绝对值。由于雅可比矩阵是一个偏导矩阵,且其行列式的值不为0,所以雅可比矩阵的逆是存在的。
在这里插入图片描述

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值