Bishop.Pattern Recognition and Machine learning（一）

最新推荐文章于 2024-05-23 22:18:27 发布

柳泉_2000

最新推荐文章于 2024-05-23 22:18:27 发布

阅读量818

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44357667/article/details/108791152

版权

机器学习专栏收录该内容

2 篇文章 1 订阅

订阅专栏

（chapter1.2，1.3，1.4，1.5，1.6）

一、高斯分布中的MAL，MAP和误差函数

高斯分布函数：

其中期望E(x）=μ，方差var[x]=σ²。
对D维向量x，

μ为D维的，被称为mean。DXD矩阵Σ为协方差，|Σ|为其行列式。
MAL
对于iid向量X={x1,x2,…,xN)^T,有

此时，log likelihood function（似然函数）为

最大化似然函数，
MAP
对于给定的x，相应的t对拟合后的函数y（x，W）来说服从高斯分布

其中β为人为定义。
对于多维向量X={x1,x2,…xN）^T,t=(t1,t2,…tN)^T,

log 似然函数

因为最右侧两项与w无关，因此可以忽略。并且将β/2换为1/2，
对log似然函数关于β求导=0，得到

对于根据最大似然得到的w、β，我们可以将其带入求得t的概率。

我们对多项式系数w引入先验分布：

其中α为超参数，M + 1是第N次多项式的向量w中的元素总数。
根据贝叶斯公式，w的后验分布与w的先验分布p（w|α）和似然函数的乘积成正比。

此时，我们通过取w后验分布的最大值，得到出现概率最大的w。（MAP方法）
发现，后验概率最大值即最小二乘中误差函数最小值，其中，λ = α/β.

二、贝叶斯曲线拟合

训练集：X,t
测试点：x
在这里插入图片描述
其中p（t|x，w）为
p（w|X,t）为w的后验分布

（chapter1.6 information theory）

x的概率为p（x）使用函数h（x）表示x的信息量
随机变量x的熵（bits）

当p（x）->0时，H[X]=0
对比：
当x有8个值，并且每个值出现概率相同。和x有8个值，但出现概率不同。

证明分布均匀时具有更大的熵：
将N个物品放在i个箱子中，每个箱子有n_i个物品。
对每个箱子中不考虑重排之间的区分，共有

种方式

因为∑p（x_i）=1

最大时，p（x_i）相等，且为1/M.
因此分布均匀时，具有更大的熵
对于连续随机变量，我们得到微分熵

使用拉格朗日乘数

求导得零，得到方程：

可以通过将该结果反替换为三个约束方程得出结果

该结果为高斯分布，带入到熵函数中

我们发现随着σ增加H[x]也增加。

对于两个变量x，y。
在这里插入图片描述
叫做y对于x的条件熵

3. 相对熵或Kullback-Leibler散度：
p(x)为未知的x的分布。q（x）是使用模型得到的x的近似分布。则

KL(p||q)!≡KL(q||p)。

【凸函数】：

对于区间（a，b）之间的函数值有：

则，对一个凸函数，当λ_i≥0且∑λ_i=1时，有
在这里插入图片描述

对于q（x），可以使用一些未知参数θ来决定，为q（x|θ）。并且使用一些离散的点来近似表示KL

对于两个独立变量x，y,得到其相对熵I[x，y]
p（x，y）=p(x)p(y)

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Bishop.Pattern Recognition and Machine learning（一）

一、高斯分布中的MAL，MAP和误差函数高斯分布函数：其中期望E(x）=μ，方差var[x]=σ2。对D维向量x，μ为D维的，被称为mean。DXD矩阵Σ为协方差，|Σ|为其行列式。MAL对于iid向量X={x1,x2,…,xN)T,有此时，log likelihood function（似然函数）为最大化似然函数，MAP对于给定的x，相应的t在拟合后的函数y（x，W）...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。