(chapter1.2,1.3,1.4,1.5,1.6)
一、高斯分布中的MAL,MAP和误差函数
- 高斯分布函数:
其中期望E(x)=μ,方差var[x]=σ2。 - 对D维向量x,
μ为D维的,被称为mean。DXD矩阵Σ为协方差,|Σ|为其行列式。 - MAL
对于iid向量X={x1,x2,…,xN)T,有
此时,log likelihood function(似然函数)为
最大化似然函数,
- MAP
对于给定的x,相应的t对拟合后的函数y(x,W)来说服从高斯分布
其中β为人为定义。
对于多维向量X={x1,x2,…xN)T,t=(t1,t2,…tN)T,
log 似然函数
因为最右侧两项与w无关,因此可以忽略。并且将β/2换为1/2,
对log似然函数关于β求导=0,得到
对于根据最大似然得到的w、β,我们可以将其带入求得t的概率。
我们对多项式系数w引入先验分布:
其中α为超参数,M + 1是第N次多项式的向量w中的元素总数。
根据贝叶斯公式,w的后验分布与w的先验分布p(w|α)和似然函数的乘积成正比。
此时,我们通过取w后验分布的最大值,得到出现概率最大的w。(MAP方法)
发现,后验概率最大值即最小二乘中误差函数最小值,其中,λ = α/β.
二、贝叶斯曲线拟合
训练集:X,t
测试点:x
其中p(t|x,w)为
p(w|X,t)为w的后验分布
(chapter1.6 information theory)
- x的概率为p(x)使用函数h(x)表示x的信息量
- 随机变量x的熵(bits)
当p(x)->0时,H[X]=0
对比:
当x有8个值,并且每个值出现概率相同。和x有8个值,但出现概率不同。
证明分布均匀时具有更大的熵:
将N个物品放在i个箱子中,每个箱子有ni个物品。
对每个箱子中不考虑重排之间的区分,共有
种方式
因为∑p(xi)=1
最大时,p(xi)相等,且为1/M.
因此分布均匀时,具有更大的熵
对于连续随机变量,我们得到微分熵
使用拉格朗日乘数
求导得零,得到方程:
可以通过将该结果反替换为三个约束方程得出结果
该结果为高斯分布,带入到熵函数中
我们发现随着σ增加H[x]也增加。
对于两个变量x,y。
叫做y对于x的条件熵
3. 相对熵或Kullback-Leibler散度:
p(x)为未知的x的分布。q(x)是使用模型得到的x的近似分布。则
KL(p||q)!≡KL(q||p)。
- 【凸函数】:
对于区间(a,b)之间的函数值有:
则,对一个凸函数,当λi≥0且∑λi=1时,有
对于q(x),可以使用一些未知参数θ来决定,为q(x|θ)。并且使用一些离散的点来近似表示KL
对于两个独立变量x,y,得到其相对熵I[x,y]
p(x,y)=p(x)p(y)