PRML学习笔记-《Introduction》

本文是关于PRML的学习笔记,重点介绍了曲线拟合的概念,包括generalization、classification、regression和unsupervised learning。讨论了多项式拟合的代价函数和正则化(如ridge regression)。此外,深入讲解了概率论的基本概念,如贝叶斯法则,以及决策理论在分类和回归问题中的应用,如最小化误分类率和信息理论的基础知识。
摘要由CSDN通过智能技术生成

Introduction

1.1 Example of Curve Fitting

1.常见术语的定义:

1.generalization: The ability to categorize correctly new examples that differ from those used for training is called generalization;
2.classification: Task in which the aim is to assign each input vector to one of a finite number of discrete categories is called classification;
3.regression: Task in which the desired output consists of one or more continuous variables is called regression;
4.unsupervised learning: 无监督学习主要分成3类:
- clustering: discover groups of similar examples within the data;
- density estimation: determine the distribution of data within the input space;
- visualization: project the data from a high-dimensional space to two or three dimensions;
5.典型的多项式拟合问题的代价函数如下所示:w的F范数只能抑制w的元素的值的幅度,但是并不能使w变得稀疏。要使w变得稀疏,应该使用零范数。
|center | 300x0
6.在5中描述的问题里面,在原本的最小二乘估计的基础上加上了F范数作为正则项,这种参数估计的方法又叫ridge regression,在神经网络当中称为weight decay,在信号处理中称为Tikhonov正则化(样本数小于参数个数,解病态方程,为了保证最小二乘估计的参数的数值稳定性,通过正则项进行对角线加载)。

2.常见结论

1.数据集越大,我们就能用越复杂的模型拟合数据;
2.下图表示ridge regression当中正则项权重 λ 对训练集和测试集上误差的影响
|center | 600x0

1.2Probability theory

1.概率论当中的两个基本的准则:sum rule和product rule。sum rule:边缘概率等于联合概率求和(sum out/marginalization/variable elimination),product rule:联合概率等于先验乘上条件概率。
|center | 300x0
2.贝叶斯法则:

p(Y|X)=p(X|Y)p(Y)p(X)

3.连续变量的概率密度函数 p(x) 与累计概率分布函数 P(x) 如下图所示
|center | 600x0
4.期望:随机函数 f(x) x 服从p(x)的概率分布函数,的数学期望为:离散型x-> E[f]=xp(x)f(x) ,连续型-> E[f]=p(x)f(x)dx 。注意多变量随机函数的期望以及条件期望

5.方差:随机函数 f(x) 的方差定义如下:

var[f]=E[(f(x)E[f(x)])2]=E[f(x)2]E[f(x)]2

两个随机向量 x y的协方差矩阵为,假设默认为列向量:
cov[x,y]=E[(xE[x])(yE[y])T]

6.频率学派和贝叶斯学派观点的比较:在curve fitting例子当中,假设拟合曲线的参数为 w , 观测的数据点为D,则根据贝叶斯定理,有

p(w|D)=p(D|w)p(w)p(D)

也就是后验正比于先验乘似然( posteriorlikelihood×prior )
在频率学派和贝叶斯学派的观点当中,似然函数 p(D|w) 都扮演着重要的角色,但是使用的方法不同。频率学派认为,参数 w 是固定的,它的值是通过估计可能的观测数据D的分布得到。但是在贝叶斯学派看来,只有一个观测数据集D(即我们实际观测到的),参数的不确定性是通过 w 的概率分布表示的。

7.高斯变量概率分布,单元以及多元:
|center | 350x0
|center | 400x0

8.高斯分布的参数估计:单变量高斯分布概率密度函数用均值μ以及方差 σ2 刻画。给定一些数据点 {x1,...,xN} ,如果采用极大似然估计的方法,可以得到似然误差为:
|center | 400x0
最小化上式,可以得到参数的极大似然估计值为:

μML=1Nn=1Nxn

σ2ML=1Nn=1N(xnμML)2

值得一提的上,上述对均值 μ 的估计是无偏的,但是对于方差的估计是有偏的,即:
|center | 200x0
接下来我们将会讲到, 极大似然估计中的偏差是导致over-fitting的根本原因

9.重温curve fitting:在前面讲到的利用多项式函数进行曲线拟合的问题当中,假设给定的数据点集为 {x1,...,xN} ,对应的真值为 {t1,...,tN} ,我们的做法是采用最小二乘法来最小化多项式函数 y(xi,w) ti 之间的平方误差。现在从概率的角度来分析,假设我们的预测量 y(x.w) 和真实的 t 之间的误差服从高斯分布,也就是说

p(t|x,w,β)=N(t|y(x,w),β1)

其中 β 表示方差的倒数。则对实际观测数据集做极大似然估计得到log似然函数为:下式对参数 w 求偏导,可以知道,当我们令估计误差服从高斯分布时,极大似然估计就等价于普通最小二乘估计。
|center | 450x0
对于上式,我们也可以对参数β求导令为0,得到 β 的极大似然估计为:
|center | 300x0
根据上述概率模型进行预测的时候,对于每一个新的数据点 x ,上述概率模型得到的都是关于预测值t的概率分布 p(t|x,wML,βML)
现在考虑对参数 w 的分布加上一个先验,即假设参数w的分布服从零均值,精度为 α 的高斯分布,即 p(w|α)=N(0,α1I) ,则根据贝叶斯法则,参数 w 的后验概率为
p(w|x,t,α,β)p(t|x,w,β)p(w|α)

采用最大后验概率的方法(MAP),可以得到MAP等价于下式:
|center | 300x0
可见采用MAP的估计方法就等价于在普通最小二乘的基础上加上了正则项,变成ridge regression。

1.3 Model Selection

1.cross-validation: 对于数据量比较小的情况下,交叉验证的做法是将数据分成 S 份,如下图所示:
|center | 500x0
对于每一个run,在S-1份数据上进行训练,在最后一份数据上验证,得到一个模型。最后测试的时候将S个模型的得分进行综合。

1.5 Decision Theory

1.假定对于一个输入的向量 x,对应一个target变量 t ,相比于probability theory里面估计(x,t)的联合分布 p(x,t) ,决策理论更加关注的是给定输入的 x ,根据预测的t采取相应的行动。因此决策理论更加关注的是预测 p(t|x)

2.medical diagnosis例子:给定一张输入的X光图像 x ,预测病人是否患有癌症t。假设 t=0 表示没有患癌症, t=1 表示患癌症。要使预测错误的概率最小,显然我们应该选择后验概率 p(t|x) 最大的类别

3.Minimizing the misclassification rate:
对于二分类问题:分类错误的概率为:
|center | 500x0
其中Decision region: Ri={x:pred(x)=Ci} ,上述表达式的意思为分类错误的概率等于在预测为 C1 的区域,但是标签为 C2 的概率加上在预测为 C2 的区域,但是标签为 C1 的概率。要使上述分类错误的概率最小,对于每一个输入 x ,如果P(x,C1)>P(x,C2),即 P(C1|x)>P(C2|x) ,则应该把 x 放到R1,否则应该把 x 放到R2,这样可以使积分最小。
对于多分类问题,为了方便,我们可以求使分类正确的概率尽可能大,即
|center | 400x0
要使上述积分项最大,应该满足对于找到使 P(x,Ck) 最大的 k ,将x放到decision region Rk当中。

4.reject option
从第3节我们知道对于一个多分类的问题,要使分类的准确率最高,应该对于每一个样本 x 选择使得后验概率P(Ck|x)最大的类别 Ck 。显然当最大的后验概率都很小,或者属于各个类别的后验概率差不多大的时候,容易出现分类错误。这个时候我们可以设置一个reject threshold,即当最大的后验概率小于该阈值 θ 时,我们不做判断。如下图所示:
|center | 600x0

5.Inference and decision
到目前为止我们处理分类问题主要有三种方法,按照从困难到简单为
1)估计输入 x 和输出Ck之间的联合概率分布 p(x,Ck) ,然后对于给定的 x ,normalize后验概率p(Ck|x),decision stage选择后验概率最大的类别。这种模型称为generative model,因为我们可以从估计的联合概率分布中采样得到生成的数据集。
2)估计输入 x 到后验概率P(Ck|x)之间的映射函数,这种模型称为discriminative model
3)直接估计输入 x 到输出类别Ck的映射函数。比如二分类问题中,对于输入 x ,设置阈值,高于阈值为1,低于阈值为0.

6.loss function for regression
前面的decision theory,我们讨论的对象都是分类的问题,现在我们讨论回归的问题。
假设输入的变量为x,回归的函数为 y(x) x 对应的真值为t,则类似分类问题,我们可以首先定义回归问题的loss function为:

E[L]=L(t,y(x))p(x,t)dxdt

其中 p(x,t) 表示输入 x 和真值t之间的联合分布概率密度函数,上式计算的是回归问题loss的平均值(期望)。常见的loss为均方误差,在这种情况下,平均的loss为:
E[L]={y(x)t}2p(x,t)dxdt

我们的目标是选择 y(x) 使得目标函数 E[L] 最小,这里涉及到泛函以及变分法,即求目标函数 E[L] 对函数 y(x) 的导数。
常见的变分法公式如下所示:
|center | 300x0
应用得到导数为:
|center | 500x0
令导数等于0,得到
y(x)=tp(x,t)dtp(x)=tp(t|x)dt=E[t|x]

也就是说,要使均方误差最小,要满足 y(x)=E[t|x] , 如下图所示:
|center | 600x0
当然有的时候square loss并不是最好的,一种简单的均方误差的一般形式即为 Minkowski loss,如下所示:
E[Lq]=|y(x)t|qp(x,t)dxdt

1.6 Information Theory

参考课本《信息论与编码》
1.离散随机事件的自信息和互信息
随机事件 xk 的自信息定义为 I(xk)=log2q(xk) ,其中 q(xk) 表示事件发生的概率。显然,若某个事件发生的概率越小,则该事件实际发生带来的信息量越大。如果某个事件发生的概率为1,则该事件发生带来的信息量为0.

随机事件 xk yk 之间的互信息定义为

I(xk;yk)=log2p(xk|yk)q(xk)=log2q(xk){log2p(xk|yk)}

上式的意义为,两个随机事件 xk yk 之间的信息量等于事件 xk 单独发生带来的信息量减去在已知 yk 发生的情况下 xk 发生还能带来的信息量。互信息表示事件 yk 所能提供关于 xk 的信息量。互信息具有对称性,即 I(xk;yk)=I(yk;xk)

互信息可正可负,如果 yk 的发生有利于 xk 的验证,则互信息为正,否则为负,若事件 xk yk 互不相关,则互信息为0.

2.离散随机变量的平均自信息–熵
离散随机变量 X 的熵的定义为平均自信息,即

H(X)=E[I(x)]=q(x)I(x)=q(x)log2q(x)

显然当随机变量的概率分布为均匀分布时,随机变量的熵越大。当概率分布呈现尖峰状时,熵很小。熵描述了随机变量的不确定性

条件熵:条件熵 H(X|Y) 描述了在已知随机变量 Y 的分布的情况下,变量X的不确定性,即事件的平均条件自信息。

H(X|Y)=E[I(x|y)]=xyp(x,y)log2p(x|y)

当随机变量 X Y统计独立时,有 H(X|Y)=H(X)

联合熵:联合熵 H(X;Y)=E[I(x;y)]=xyp(x,y)log2p(x,y) ,即事件的平均联合自信息
联合熵的满足 H(X;Y)=H(X)+H(Y|X) ,即 X,Y 的联合不确定性等于 X 的不确定性加上已知X分布的情况下, Y 的不确定性。

3.离散随机变量的平均互信息
根据随机事件的互信息的定义,可以很容易推倒出随机变量之间的互信息的定义为:

I(X;Y)=E[I(x;y)]=p(x,y)log2p(x|y)q(x)

互信息的性质:
1)非负性: I(X;Y)0 ,虽然事件的互信息可正可负,但是随机变量的互信息是非负的
2)对称性: I(X;Y)=I(Y;X)
3) I(X;Y)=H(X)H(X|Y)=H(Y)H(Y|X)=H(X)+H(Y)H(X,Y)
4) I(X;Y)H(X) & I(X;Y)H(Y)

4.离散概率分布的散度 –相对熵
散度定义为在同一个字符表上(即随机变量的取值范围相同)的两个概率分布之间的差异,定义为:

D(p//q)=xp(x)log2p(x)q(x)

只有当 p(x)=q(x) 时,散度为0,上述散度的定义也叫做相对熵,交叉熵以及KL距离。上述散度的定义是非对称的。

5.连续随机变量的互信息
两个连续随机变量 X Y之间的互信息的定义为:

I(X;Y)=Exy[I(x;y)]=p(x,y)log2p(x|y)p(x)dxdy

6.连续随机变量的熵 –微分熵
离散随机变量下定义的熵不能直接推广到连续随机变量的情况。因为按照熵的定义,连续随机变量的取值范围是无穷的,熵也是无穷大的(即使是一小段区间,也无法确定变量具体可能的取值)。
对于连续变量,微分熵( HC(X) ,有时也表示为 h(X) )的定义如下:

HC(X)=p(x)log2p(x)dx

微分熵并不代表事件出现的不确定性,但微分熵仍然具备很多和离散情况下熵的性质

联合微分熵

HC(X;Y)=p(x,y)log2p(x,y)dxdy

条件微分熵

HC(X|Y)=p(x,y)log2p(x|y)dxdy

连续随机变量互信息

I(X;Y)=HC(X)HC(X|Y)=HC(Y)HC(Y|X)

微分熵的极大化
1)峰值受限:当微分熵的取值范围受限于 (M,M) ,即 MMp(x)dx=1 ,这时微分熵满足 HC(X)ln2M ,当均匀分布时得到最大值
2)平均功率受限:在方差 σ2 一定的条件下,当 X 服从高斯分布时,微分熵最大,即HC(X)ln(2πeσ)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值