机器学习--无监督学习

最新推荐文章于 2024-08-07 15:33:58 发布

没出没

最新推荐文章于 2024-08-07 15:33:58 发布

阅读量2.3k

点赞数

分类专栏： ml 文章标签： ml

本文链接：https://blog.csdn.net/wqzghost/article/details/51122341

版权

ml 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前两篇文章，机器学习–监督学习（一）、机器学习–监督学习（二）总结了机器学习中的监督学习，在这篇文章中总结一下无监督学习，供以后参考使用。本文用到的内容基本来自blog，会尽量加入引用，如果疏漏还请谅解。

Jensen不等式

设 $f$ 是定义域为实数的函数，如果对于所有的实数 $x$ ， $f^{''}(x) \ge 0$ ，那么 $f$ 是凸函数。当 $x$ 是向量时，如果其hessian矩阵 $H$ 是半正定的（ $H \ge 0$ ），那么 $f$ 是凸函数。如果 $f^{''}(x) \gt 0$ 或者 $f^{''}(x) \gt 0$ ，那么称 $f$ 是严格凸函数。

如果 $f$ 是凸函数， $x$ 是随机变量，那么:

E [f (x)] \geq f [E [x]]

$E[f(x)] \ge f[E[x]]$
特别地，如果

f f $f$ 是严格凸函数, 那么

E [f (x)] = f [E [x]]

$E[f(x)] = f[E[x]]$ ，当且仅当

p(x=E(x))=1 p ( x = E ( x ) ) = 1 $p(x = E(x)) = 1$ ，也就是说

x x $x$ 是常量。

Jensen不等式
当

f

$f$ 是（严格）凹函数当且仅当

−f − f $-f$ 是（严格）凸函数。
Jensen不等式应用于凹函数时，不等号方向反向，也就是

E[f(x)]≤f[E[x]] E [ f ( x ) ] ≤ f [ E [ x ] ] $E[f(x)] \le f[E[x]]$ 。

EM算法

给定的训练样本是 $\{x^{(1)}, ... , x^{(m)}\}$ ，样本间独立，我们想找到每个样本隐含的类别 $z$ ，能使得 $p(x,z)$ 最大。 $p(x,z)$ 的最大似然估计如下：

l (θ) = \sum i = 0 m l o g p (x (i); θ) = \sum i = 0 m l o g \sum z (i) p (x (i), z (i); θ) (1) (2)

$\begin{align} l(\theta) &= \sum_{i = 0}^m log p(x^{(i)}; \theta) \\ &=\sum_{i = 0}^m log \sum_{z^{(i)}} p(x^{(i)}, z^{(i)}; \theta) \end{align}$

第一步是对极大似然取对数，第二步是对每个样本的每个可能类别 $z$ 求联合分布概率和。但是直接求 $\theta$ 一般比较困难，因为有隐藏变量 $z$ 存在。但是一般确定了 $z$ 后，求解就容易了。

为了使用EM算法，对（2）式继续处理：

l (θ) = \sum i = 0 m l o g p (x (i); θ) = \sum i = 0 m l o g \sum z (i) p (x (i), z (i); θ) = \sum i = 0 m l o g \sum z (i) Q i (z (i)) p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) \geq \sum i = 0 m \sum z (i) Q i (z (i)) p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) = l o w b o u n d (θ) (3) (2) (3) (4)

$\begin{align} l(\theta) &= \sum_{i = 0}^m log p(x^{(i)}; \theta) \\ & = \sum_{i = 0}^m log \sum_{z^{(i)}} p(x^{(i)}, z^{(i)}; \theta) \tag 2 \\ & = \sum_{i=0}^m log \sum_{z^{(i)}} Q_i(z^{(i)}) \frac {p(x^{(i)}, z^{(i)}; \theta) } {Q_i(z^{(i)})} \tag 3 \\ & \ge \sum_{i=0}^m \sum_{z^{(i)}} Q_i(z^{(i)}) \frac {p(x^{(i)}, z^{(i)}; \theta) } {Q_i(z^{(i)})} =lowbound(\theta) \tag 4 \end{align}$

这里 $Q$ 是 $z$ 的多项式分布，且 $Q_i(z^{(i)}) \ge 0$ ， $\sum_{z^{(i)}} Q_i(z^{(i)}) = 1 。$ （2）到（3）就是分子分母同乘以一个相等的函数。（3）到（4）说明如下：

Lazy Statistician 规则：
设 $y$ 是随机变量x的函数， $y = g(x)$ （ $g$ 是连续函数），那么：
（1） $x$ 是离散随机变量，分布为 $p(x = x_k) = p_k, k = 1, 2, ...$ ，若 $\sum_{k = 1} ^{\infty}g(x_k)p_k$ 绝对收敛，则：

$E (y) = E [g (x)] = \sum k = 1 \infty g (x k) p k$ $E(y) = E[g(x)] = \sum_{k = 1} ^{\infty}g(x_k)p_k$
（2） $x$ 是连续型随机变量，它的概率密度为 $f(x)$ ，若 $\int_{-\infty}^{+\infty} g(x)f(x)dx$ 绝对收敛，则：
$E (y) = E [g (x)] = \int + \infty - \infty g (x) f (x) d x$ $E(y) = E[g(x)] = \int_{-\infty}^{+\infty} g(x)f(x)dx$

根据上述规则，设 $y$ 是为 $\frac {p(x^{(i)}, z^{(i)}; \theta) } {Q_i(z^{(i)})}$ ， $x$ 为 $z^{(i)}$ ， $Q_i(z^{(i)})$ 为 $p_k$ ， $g$ 为 $z^{(i)}$ 到 $\frac {p(x^{(i)}, z^{(i)}; \theta) } {Q_i(z^{(i)})}$ 的映射。则
$\sum_{z^{(i)}} Q_i(z^{(i)}) \frac {p(x^{(i)}, z^{(i)}; \theta) } {Q_i(z^{(i)})}$ 为 $\frac {p(x^{(i)}, z^{(i)}; \theta) } {Q_i(z^{(i)})}$ 的期望。且根据凹函数时的Jensen不等式，考虑到 $log(x)为凹函数$ ：

f (E z (i) \sim Q i [p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) )]) \geq E z (i) \sim Q i [f (p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ))]

$f \left(E_{z^{(i)} \sim Q_i} \left[\frac {p(x^{(i)}, z^{(i)}; \theta) } {Q_i(z^{(i)})} \right] \right) \ge E_{z^{(i)} \sim Q_i} \left[ f \left( \frac {p(x^{(i)}, z^{(i)}; \theta) } {Q_i(z^{(i)})} \right) \right]$

由公式（4）导出了似然函数的一个下界，可以看到，该下界已经将取对数放到求和里面
了，因而对其求偏导较为简单。假设当前的参数为 $\theta^{(t)}$ ，在下界上进行极大似然估计后得到新参数 $\theta^{(t+1)}$ ，如果能保证 $l(\theta^{(t)}) \ge l(\theta^{(t+1)})$ ，那么我们就可以在下界函数上进行极大似然估计就可以了。亦即证明：

l (θ (t + 1)) \geq l o w b o u n d (θ (t + 1)) \geq l o w b o u n d (θ (t)) = l (θ (t))

$l(\theta^{(t+1)}) \ge lowbound(\theta^{(t+1)}) \ge lowbound(\theta^{(t)}) = l(\theta^{(t)})$
第一个不等号意为下界函数，第二个不等号意为在下界函数上做极大似然估计，第三个
等号是我们的假设。

回顾Jensen 不等式中令等号成立的条件，只要 $x = E[x]$ 即可，即：

p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) = c

$\frac {p(x^{(i)}, z^{(i)}; \theta) } {Q_i(z^{(i)})} = c$

有 $\sum_{z^{(i)}} Q_i(z^{(i)}) = 1$ ，将 $m$ 个样本的分子、分母相加：

\frac{\sum_{z^{(i)}} p (x^{(i)}, z^{(i)}; θ)}{\sum_{z^{(i)}} Q_{i} (z^{(i)})} = \frac{\sum_{z^{(i)}} p (x^{(i)}, z^{(i)}; θ)}{1} = c

$\frac {\sum_{z^{(i)}} p(x^{(i)}, z^{(i)}; \theta)} {\sum_{z^{(i)}} Q_i(z^{(i)})} = \frac {\sum_{z^{(i)}} p(x^{(i)}, z^{(i)}; \theta)} {1} =c$
由上述两个公式，

Qi(z(i)) Q i ( z ( i ) ) $Q_i(z^{(i)})$ 为：

Q i (z (i)) = p ( x ( i ) , z ( i ) ; θ ) \sum z ( i ) p ( x ( i ) , z ( i ) ; θ ) = p ( x ( i ) , z ( i ) ; θ ) p ( x ( i ) , θ ) = p (z (i) | x (i); θ) (4) (5) (6)

$\begin{align} Q_i(z^{(i)}) &= \frac {p(x^{(i)}, z^{(i)}; \theta)}{\sum_{z^{(i)}} p(x^{(i)}, z^{(i)}; \theta)} \\ &= \frac {p(x^{(i)}, z^{(i)}; \theta)} {p(x^{(i)}, \theta)} \\ &= p(z^{(i)}|x^{(i)}; \theta) \end{align}$

由以上分析，我们就得到了EM 算法的一般化形式。一般化形式的思想是，在E-step，找到对于当前参数 $\theta$ ， θ，使公式4等号成立的 $Q$ 分布，在M-step，对似然函数下界进行极大
似然估计，得到新的参数。形式化表述为：

E-step：

Q_{i} (Z^{(i)}) = p (z^{(i)} | x^{(i)}; θ)

$Q_i(Z^{(i)}) = p(z^{(i)}|x^{(i)}; \theta)$
M-step

θ = a r g max θ \sum i = 1 m \sum z (i) Q i (Z (i)) l o g p ( x ( i ) ) , z ( i ) ; θ Q i ( z ( i ) )

$\theta = arg \max_{\theta} \sum_{i=1}^{m} \sum_{z^{(i)}} Q_i(Z^{(i)}) log \frac {p(x^{(i)}), z^{(i)}; \theta} {Q_i(z^{(i)})}$

为了便于理解，这里以一幅图来对EM 算法进行总结:

图中所展现的内容就是我们刚才所述主要思想，存在一个我们不能直接进行求导的似
然函数，给定初始参数，我们找到在初始参数下紧挨着似然函数的下界函数，在下界上求极
值来更新参数。然后以更新后的参数为初始值再次进行如上操作，这就是EM 进行参数估计
的方法。

当然似然函数不一定是如图中那样只有一个极值点，因而EM 算法也有可能只求出局
部极值。当然，可以如K-Means 那样多次选择初始参数进行求，然后取最优的参数。
其实，在EM 的一般化形式中，可以将目标函数看做是:

J (Q, θ) = \sum i = 1 m \sum z (i) Q i (Z (i)) l o g p ( x ( i ) ) , z ( i ) ; θ Q i ( z ( i ) )

$J(Q, \theta)= \sum_{i=1}^{m} \sum_{z^{(i)}} Q_i(Z^{(i)}) log \frac {p(x^{(i)}), z^{(i)}; \theta} {Q_i(z^{(i)})}$
这样，EM 算法就可以看做是对目标函数的坐标上升过程，在E-step 中，

θ θ $\theta$ 不变，调整

Q Q $Q$ 使函数变大；在M-step 中，