PRML学习笔记-《Introduction》

最新推荐文章于 2022-09-02 10:46:33 发布

yj_isee

最新推荐文章于 2022-09-02 10:46:33 发布

阅读量993

点赞数

分类专栏： Machine Learning 模式识别与机器学习研究

本文链接：https://blog.csdn.net/yaoqi_isee/article/details/78972540

版权

模式识别与机器学习研究同时被 2 个专栏收录

4 篇文章 3 订阅

订阅专栏

Machine Learning

3 篇文章 0 订阅

订阅专栏

本文是关于PRML的学习笔记，重点介绍了曲线拟合的概念，包括generalization、classification、regression和unsupervised learning。讨论了多项式拟合的代价函数和正则化（如ridge regression）。此外，深入讲解了概率论的基本概念，如贝叶斯法则，以及决策理论在分类和回归问题中的应用，如最小化误分类率和信息理论的基础知识。

摘要由CSDN通过智能技术生成

Introduction

1.1 Example of Curve Fitting

1.常见术语的定义：

1.generalization: The ability to categorize correctly new examples that differ from those used for training is called generalization;
2.classification: Task in which the aim is to assign each input vector to one of a finite number of discrete categories is called classification;
3.regression: Task in which the desired output consists of one or more continuous variables is called regression;
4.unsupervised learning: 无监督学习主要分成3类：
- clustering: discover groups of similar examples within the data;
- density estimation: determine the distribution of data within the input space;
- visualization: project the data from a high-dimensional space to two or three dimensions;
5.典型的多项式拟合问题的代价函数如下所示：w的F范数只能抑制w的元素的值的幅度，但是并不能使w变得稀疏。要使w变得稀疏，应该使用零范数。
|center | 300x0
6.在5中描述的问题里面，在原本的最小二乘估计的基础上加上了F范数作为正则项，这种参数估计的方法又叫ridge regression，在神经网络当中称为weight decay，在信号处理中称为Tikhonov正则化（样本数小于参数个数，解病态方程，为了保证最小二乘估计的参数的数值稳定性，通过正则项进行对角线加载）。

2.常见结论

1.数据集越大，我们就能用越复杂的模型拟合数据；
2.下图表示ridge regression当中正则项权重 $\lambda$ 对训练集和测试集上误差的影响
|center | 600x0

1.2Probability theory

1.概率论当中的两个基本的准则：sum rule和product rule。sum rule：边缘概率等于联合概率求和(sum out/marginalization/variable elimination)，product rule：联合概率等于先验乘上条件概率。
|center | 300x0
2.贝叶斯法则：

p (Y | X) = p ( X | Y ) p ( Y ) p ( X )

$p(Y|X) = \frac{p(X|Y)p(Y)}{p(X)}$
3.连续变量的概率密度函数

p(x) $p(x)$ 与累计概率分布函数

P(x) $P(x)$ 如下图所示
|center | 600x0

4.期望：随机函数

f(x) $f(x)$ ，

x $x$ 服从

p(x) $p(x)$ 的概率分布函数，的数学期望为：离散型x->

E[f]=∑xp(x)f(x) $E[f] = \sum_xp(x)f(x)$ ，连续型->

E[f]=∫p(x)f(x)dx $E[f] = \int p(x)f(x)dx$ 。注意多变量随机函数的期望以及条件期望

5.方差：随机函数 $f(x)$ 的方差定义如下：

v a r [f] = E [(f (x) - E [f (x)]) 2] = E [f (x) 2] - E [f (x)] 2

$var[f] = E[(f(x) - E[f(x)])^2] = E[f(x)^2] - E[f(x)]^2$
两个随机向量

x $x$ 和

y $y$ 的协方差矩阵为，假设默认为列向量：

c o v [x, y] = E [(x - E [x]) \cdot (y - E [y]) T]

$cov[x, y] = E[(x - E[x]) \cdot (y - E[y])^T]$

6.频率学派和贝叶斯学派观点的比较：在curve fitting例子当中，假设拟合曲线的参数为 $w$ ，观测的数据点为 $D$ ，则根据贝叶斯定理，有

p (w | D) = p ( D | w ) p ( w ) p ( D )

$p(w|D) = \frac{p(D|w)p(w)}{p(D)}$
也就是后验正比于先验乘似然(

posterior∝likelihood×prior $posterior \propto likelihood \times prior$ )
在频率学派和贝叶斯学派的观点当中，似然函数

p(D|w) $p(D|w)$ 都扮演着重要的角色，但是使用的方法不同。频率学派认为，参数

w $w$ 是固定的，它的值是通过估计可能的观测数据

D $D$ 的分布得到。但是在贝叶斯学派看来，只有一个观测数据集D（即我们实际观测到的），参数的不确定性是通过

w $w$ 的概率分布表示的。

7.高斯变量概率分布，单元以及多元：
|center | 350x0
|center | 400x0

8.高斯分布的参数估计：单变量高斯分布概率密度函数用均值 $\mu$ 以及方差 $\sigma^2$ 刻画。给定一些数据点 $\{x_1, ..., x_N\}$ ，如果采用极大似然估计的方法，可以得到似然误差为：
|center | 400x0
最小化上式，可以得到参数的极大似然估计值为：

μ M L = 1 N \sum n = 1 N x n

$\mu_{ML} = \frac{1}{N}\sum_{n=1}^N x_n$

σ 2 M L = 1 N \sum n = 1 N (x n - μ M L) 2

$\sigma_{ML}^2 = \frac{1}{N}\sum_{n=1}^N(x_n - \mu_{ML})^2$
值得一提的上，上述对均值

μ $\mu$ 的估计是无偏的，但是对于方差的估计是有偏的，即：
|center | 200x0

接下来我们将会讲到， 极大似然估计中的偏差是导致over-fitting的根本原因。

9.重温curve fitting：在前面讲到的利用多项式函数进行曲线拟合的问题当中，假设给定的数据点集为 $\{x_1, ..., x_N\}$ ，对应的真值为 $\{t_1, ..., t_N\}$ ，我们的做法是采用最小二乘法来最小化多项式函数 $y(x_i, w)$ 和 $t_i$ 之间的平方误差。现在从概率的角度来分析，假设我们的预测量 $y(x. w)$ 和真实的 $t$ 之间的误差服从高斯分布，也就是说

p (t | x, w, β) = N (t | y (x, w), β - 1)

$p(t|x, w, \beta) = \mathcal{N}(t|y(x, w), \beta^{-1})$
其中

β $\beta$ 表示方差的倒数。则对实际观测数据集做极大似然估计得到log似然函数为：下式对参数

w $w$ 求偏导，可以知道，当我们令估计误差服从高斯分布时，极大似然估计就等价于普通最小二乘估计。
|center | 450x0

对于上式，我们也可以对参数

β $\beta$ 求导令为0，得到

β $\beta$ 的极大似然估计为：
|center | 300x0

根据上述概率模型进行预测的时候，对于每一个新的数据点

x $x$ ，上述概率模型得到的都是关于预测值

t $t$ 的概率分布

p(t|x,wML,βML) $p(t|x, w_{ML}, \beta_{ML})$ 。
现在考虑对参数

w $w$ 的分布加上一个先验，即假设参数

w $w$ 的分布服从零均值，精度为

α $\alpha$ 的高斯分布，即

p(w|α)=N(0,α−1I) $p(w|\alpha) = \mathcal{N}(0, \alpha^{-1}I)$ ，则根据贝叶斯法则，参数

w $w$ 的后验概率为

p (w | x, t, α, β) \propto p (t | x, w, β) p (w | α)

可见采用MAP的估计方法就等价于在普通最小二乘的基础上加上了正则项，变成ridge regression。

1.3 Model Selection

1.cross-validation: 对于数据量比较小的情况下，交叉验证的做法是将数据分成 $S$ 份，如下图所示：
|center | 500x0
对于每一个run，在S-1份数据上进行训练，在最后一份数据上验证，得到一个模型。最后测试的时候将S个模型的得分进行综合。

1.5 Decision Theory

1.假定对于一个输入的向量 $x$ ，对应一个target变量 $t$ ，相比于probability theory里面估计 $(x, t)$ 的联合分布 $p(x,t)$ ，决策理论更加关注的是给定输入的 $x$ ，根据预测的 $t$ 采取相应的行动。因此决策理论更加关注的是预测 $p(t|x)$

2.medical diagnosis例子：给定一张输入的X光图像 $x$ ，预测病人是否患有癌症 $t$ 。假设 $t=0$ 表示没有患癌症， $t=1$ 表示患癌症。要使预测错误的概率最小，显然我们应该选择后验概率 $p(t|x)$ 最大的类别。

3.Minimizing the misclassification rate：
对于二分类问题：分类错误的概率为：
|center | 500x0
其中Decision region: $R_i = \{x: pred(x) = C_i\}$ ，上述表达式的意思为分类错误的概率等于在预测为 $C_1$ 的区域，但是标签为 $C_2$ 的概率加上在预测为 $C_2$ 的区域，但是标签为 $C_1$ 的概率。要使上述分类错误的概率最小，对于每一个输入 $x$ ，如果 $P(x, C_1) > P(x, C_2)$ ，即 $P(C_1|x) > P(C_2|x)$ ，则应该把 $x$ 放到 $R_1$ ，否则应该把 $x$ 放到 $R_2$ ，这样可以使积分最小。
对于多分类问题，为了方便，我们可以求使分类正确的概率尽可能大，即
|center | 400x0
要使上述积分项最大，应该满足对于找到使 $P(x, C_k)$ 最大的 $k$ ，将x放到decision region $R_k$ 当中。

4.reject option
从第3节我们知道对于一个多分类的问题，要使分类的准确率最高，应该对于每一个样本 $x$ 选择使得后验概率 $P(C_k|x)$ 最大的类别 $C_k$ 。显然当最大的后验概率都很小，或者属于各个类别的后验概率差不多大的时候，容易出现分类错误。这个时候我们可以设置一个reject threshold，即当最大的后验概率小于该阈值 $\theta$ 时，我们不做判断。如下图所示：
|center | 600x0

5.Inference and decision
到目前为止我们处理分类问题主要有三种方法，按照从困难到简单为
1）估计输入 $x$ 和输出 $C_k$ 之间的联合概率分布 $p(x, C_k)$ ，然后对于给定的 $x$ ，normalize后验概率 $p(C_k|x)$ ，decision stage选择后验概率最大的类别。这种模型称为generative model，因为我们可以从估计的联合概率分布中采样得到生成的数据集。
2）估计输入 $x$ 到后验概率 $P(C_k|x)$ 之间的映射函数，这种模型称为discriminative model
3）直接估计输入 $x$ 到输出类别 $C_k$ 的映射函数。比如二分类问题中，对于输入 $x$ ，设置阈值，高于阈值为1，低于阈值为0.

6.loss function for regression
前面的decision theory，我们讨论的对象都是分类的问题，现在我们讨论回归的问题。
假设输入的变量为 $x$ ，回归的函数为 $y(x)$ ， $x$ 对应的真值为 $t$ ，则类似分类问题，我们可以首先定义回归问题的loss function为：

E [L] = \int \int L (t, y (x)) p (x, t) d x d t

$E[L]=\int\int L(t, y(x))p(x,t)dxdt$
其中

p(x,t) $p(x,t)$ 表示输入

x $x$ 和真值

t $t$ 之间的联合分布概率密度函数，上式计算的是回归问题loss的平均值（期望）。常见的loss为均方误差，在这种情况下，平均的loss为：

E [L] = \int \int {y (x) - t} 2 p (x, t) d x d t

$E[L]=\int\int \{y(x) - t\}^2p(x,t)dxdt$
我们的目标是选择

y(x) $y(x)$ 使得目标函数

E[L] $E[L]$ 最小，这里涉及到泛函以及变分法，即求目标函数

E[L] $E[L]$ 对函数

y(x) $y(x)$ 的导数。
常见的变分法公式如下所示：
|center | 300x0

应用得到导数为：

令导数等于0，得到

y (x) = \int t p ( x , t ) d t p ( x ) = \int t p (t | x) d t = E [t | x]

$y(x)=\frac{\int tp(x,t)dt}{p(x)} = \int tp(t|x)dt=E[t|x]$
也就是说，要使均方误差最小，要满足

y(x)=E[t|x] $y(x)=E[t|x]$ , 如下图所示：
|center | 600x0

当然有的时候square loss并不是最好的，一种简单的均方误差的一般形式即为

Minkowski $Minkowski$ loss，如下所示：

E [L q] = \int \int | y (x) - t | q p (x, t) d x d t

$E[L_q] = \int \int |y(x)-t|^q p(x,t) dx dt$

1.6 Information Theory

参考课本《信息论与编码》
1.离散随机事件的自信息和互信息
随机事件 $x_k$ 的自信息定义为 $I(x_k) = -log_2 q(x_k)$ ，其中 $q(x_k)$ 表示事件发生的概率。显然，若某个事件发生的概率越小，则该事件实际发生带来的信息量越大。如果某个事件发生的概率为1，则该事件发生带来的信息量为0.

随机事件 $x_k$ 和 $y_k$ 之间的互信息定义为

I (x k; y k) = l o g 2 p ( x k | y k ) q ( x k ) = - l o g 2 q (x k) - {- l o g 2 p (x k | y k)}

$I(x_k;y_k) = log_2 \frac{p(x_k|y_k)} {q(x_k)} = -log_2 q(x_k) - \{ - log_2 p(x_k|y_k)\}$
上式的意义为，两个随机事件

xk $x_k$ 和

yk $y_k$ 之间的信息量等于事件

xk $x_k$ 单独发生带来的信息量减去在已知

yk $y_k$ 发生的情况下

xk $x_k$ 发生还能带来的信息量。互信息表示事件

yk $y_k$ 所能提供关于

xk $x_k$ 的信息量。互信息具有对称性，即

I(xk;yk)=I(yk;xk) $I(x_k;y_k) = I(y_k;x_k)$ 。

互信息可正可负，如果 $y_k$ 的发生有利于 $x_k$ 的验证，则互信息为正，否则为负，若事件 $x_k$ 和 $y_k$ 互不相关，则互信息为0.

2.离散随机变量的平均自信息–熵
离散随机变量 $X$ 的熵的定义为平均自信息，即

H (X) = E [I (x)] = \sum q (x) I (x) = - \sum q (x) l o g 2 q (x)

$H(X) = E[I(x)] = \sum q(x)I(x) = -\sum q(x) log_2 q(x)$
显然当随机变量的概率分布为均匀分布时，随机变量的熵越大。当概率分布呈现尖峰状时，熵很小。熵描述了随机变量的不确定性。

条件熵：条件熵 $H(X|Y)$ 描述了在已知随机变量 $Y$ 的分布的情况下，变量 $X$ 的不确定性，即事件的平均条件自信息。

H (X | Y) = E [I (x | y)] = - \sum x \sum y p (x, y) l o g 2 p (x | y)

$H(X|Y) = E[I(x|y)] = -\sum_{x} \sum_{y} p(x, y) log_2p(x|y)$
当随机变量

X $X$ 和

Y $Y$ 统计独立时，有

H(X|Y)=H(X) $H(X|Y) = H(X)$

联合熵：联合熵 $H(X;Y) = E[I(x;y)] = -\sum_{x} \sum_{y} p(x,y) log_2 p(x,y)$ ，即事件的平均联合自信息
联合熵的满足 $H(X;Y) = H(X) + H(Y|X)$ ，即 $X,Y$ 的联合不确定性等于 $X$ 的不确定性加上已知 $X$ 分布的情况下， $Y$ 的不确定性。

3.离散随机变量的平均互信息
根据随机事件的互信息的定义，可以很容易推倒出随机变量之间的互信息的定义为：

I (X; Y) = E [I (x; y)] = \sum \sum p (x, y) l o g 2 p ( x | y ) q ( x )

$I(X;Y) = E[I(x;y)] = \sum \sum p(x,y) log_2 \frac{p(x|y)}{q(x)}$
互信息的性质：
1）非负性：

I(X;Y)⩾0 $I(X;Y) \geqslant 0$ ，虽然事件的互信息可正可负，但是随机变量的互信息是非负的
2）对称性：

I(X;Y)=I(Y;X) $I(X;Y)=I(Y;X)$
3）

I(X;Y)=H(X)−H(X|Y)=H(Y)−H(Y|X)=H(X)+H(Y)−H(X,Y) $I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(X,Y)$
4）

I(X;Y)⩽H(X) $I(X;Y) \leqslant H(X)$ &

I(X;Y)⩽H(Y) $I(X;Y) \leqslant H(Y)$

4.离散概率分布的散度 –相对熵
散度定义为在同一个字符表上（即随机变量的取值范围相同）的两个概率分布之间的差异，定义为：

D (p / / q) = \sum x p (x) l o g 2 p ( x ) q ( x )

$D(p // q) = \sum_{x} p(x) log_2 \frac{p(x)}{q(x)}$
只有当

p(x)=q(x) $p(x)=q(x)$ 时，散度为0，上述散度的定义也叫做相对熵，交叉熵以及KL距离。上述散度的定义是非对称的。

5.连续随机变量的互信息
两个连续随机变量 $X$ 和 $Y$ 之间的互信息的定义为：

I (X; Y) = E x y [I (x; y)] = \iint p (x, y) l o g 2 p ( x | y ) p ( x ) d x d y

$I(X;Y) = E_{xy}[I(x;y)] = \iint p(x,y) log_2 \frac{p(x|y)}{p(x)} dx dy$

6.连续随机变量的熵 –微分熵
离散随机变量下定义的熵不能直接推广到连续随机变量的情况。因为按照熵的定义，连续随机变量的取值范围是无穷的，熵也是无穷大的（即使是一小段区间，也无法确定变量具体可能的取值）。
对于连续变量，微分熵（ $H_C(X)$ ，有时也表示为 $h(X)$ ）的定义如下：

H C (X) = - \int \infty - \infty p (x) l o g 2 p (x) d x

$H_C(X) = - \int_{-\infty}^{\infty} p(x) log_2 p(x) dx$
微分熵并不代表事件出现的不确定性，但微分熵仍然具备很多和离散情况下熵的性质

联合微分熵

H C (X; Y) = - \iint p (x, y) l o g 2 p (x, y) d x d y

$H_C(X;Y) = - \iint p(x,y) log_2 p(x,y) dx dy$

条件微分熵

H C (X | Y) = - \iint p (x, y) l o g 2 p (x | y) d x d y

$H_C(X|Y) = - \iint p(x,y) log_2 p(x|y) dx dy$

连续随机变量互信息

I (X; Y) = H C (X) - H C (X | Y) = H C (Y) - H C (Y | X)

$I(X;Y)=H_C(X) - H_C(X|Y) = H_C(Y) - H_C(Y|X)$

微分熵的极大化
1）峰值受限：当微分熵的取值范围受限于 $(-M, M)$ ，即 $\int_{-M}^{M} p(x) dx = 1$ ，这时微分熵满足 $H_C(X) \leqslant ln2M$ ，当均匀分布时得到最大值
2）平均功率受限：在方差 $\sigma^2$ 一定的条件下，当 $X$ 服从高斯分布时，微分熵最大，即 $H_C(X) \leqslant ln(\sqrt{2\pi e} \sigma)$

yj_isee

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PRML学习笔记-《Introduction》

Introduction1.1 Example of Curve Fitting1.常见术语的定义：1.generalization: The ability to categorize correctly new examples that differ from those used for training is called generalization; 2.classification
复制链接

扫一扫

专栏目录