【学习笔记】统计学习方法——无监督学习概论

最新推荐文章于 2024-04-24 13:30:10 发布

YakultGo

最新推荐文章于 2024-04-24 13:30:10 发布

阅读量530

点赞数

分类专栏：统计学习方法文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/weixin_43869610/article/details/109322184

版权

统计学习方法专栏收录该内容

13 篇文章 1 订阅

订阅专栏

无监督学习的基本原理

无监督学习是从无标注的数据中学习数据的统计规律或者说内在结构的机器学习，主要包括聚类、降维、概率估计。无监督学习可以用于数据分析或者监督学习的前处理。

无监督学习使用无标注数据 $U=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}$ 学习或训练，其中 $x_{i}, i=$ $\cdots, N,$ 是样本 (实例)，由特征向量组成. 无监督学习的模型是函数 $z=g_{\theta}(x)$ 条件概率分布 $P_{\theta}(z \mid x),$ 或条件概率分布 $P_{\theta}(x \mid z) .$ 其中 $\in X$ 是输入, 表示样本 $_{i} z \in Z$ 是输出，表示对样本的分析结果, 可以是类别、转换、概率: $\theta$ 是参数。假设训练数据集由 $N$ 个样本组成, 每个样本是一个 $M$ 维向量. 训练数据可以由一个矩阵表示, 每一行对应一个特征, 每一列对应一个样本.
$X=\left[\begin{array}{ccc} x_{11} & \cdots & x_{1 N} \\ \vdots & & \vdots \\ x_{M 1} & \cdots & x_{M N} \end{array}\right]$
其中， $x_{i j}$ 是第 $j$ 个向量的第 $i$ 维: $\cdots, M: j=1,2, \cdots, N$
无监督学习是一个困难的任务，因为数据没有标注，也就是没有人的指导，机器需要自己从数据中找出规律。模型的输入 $x$ 在数据中可以观测，而输出 z 隐藏在数据中。无监督学习通常需要大量的数据，因为对数据隐藏的规律的发现需要足的的观测。

基本问题

1、聚类

聚类（clustering）是将样本集合中相似的样本 (实例) 分配到相同的类，不相似的样本分配到不同的类。聚类时，样本通常是欧氏空间中的向量，类别不是事先给定，而是从数据中自动发现，但类别的个数通常是事先给定的。样本之间的相似度或距离由应用决定。如果一个样本只能属于一个类, 则称为硬聚类 (hard clustering): 如果一个样本可以属于多个类, 则称为软聚类 (soft clustering) 。

假设输入空间是欧氏空间 $\subseteq \mathbf{R}^{d}$ , 输出空间是类别集合 $Z=\{1,2, \cdots, k\} .$ 聚类的模型是函数 $z=g_{\theta}(x)$ 或者条件概率分布 $P_{\theta}(z \mid x),$ 其中 $\in X$ 是样本的向量， $\in Z$ 是样本的类别, $\theta$ 是参数。前者的函数是硬聚类模型, 后者的条件概率分布是软聚类模型。

2、降维

降维（dimensionality reduction）是将训练数据中的样本（实例）从高维空间转换到低维空间。假设样本原本存在于低维空间，或者近似地存在于低维空间，通过降维则可以更好地表示样本数据的结构，即更好地表示样本之间的关系。高维空间通常是高维的欧氏空间，而低维空间是低维的欧氏空间或者流形 (manifold）。低维空间不是事先给定，而是从数据中自动发现，其维数通常是事先给定的。从高维到低维的降维中，要保证样本中的信息损失最小。降维有线性的降维和非线性的降维。

假设输入空间是欧氏空间 $\subseteq \mathbf{R}^{d}$ , 输出空间也是欧氏空间 $\subseteq \mathbf{R}^{d^{\prime}}, d^{\prime} \ll d,$ 后者的维数低于前者的维数。降维的模型是函数 $z=g_{\theta}(x),$ 其中 $\in X$ 是样本的高维向量，z $\in$ Z 是样本的低维向量, $\theta$ 是参数。函数可以是线性函数也可以是非线性函数。

3、概率模型估计

概率模型估计（probability model estimation），简称概率估计，假设训练数据由个概率模型生成，由训练数据学习概率模型的结构和参数。概率模型的结构类型, 或者说概率模型的集合事先给定，而模型的具体结构与参数从数据中自动学习。学习的目标是找到最有可能生成数据的结构和参数。概率模型包括混合模型、概率图模型等。概率图模型又包括有向图模型和无向图模型。

机器学习三要数

模型、策略、算法

模型就是函数 $z=g_\theta(x)$ ，条件概率分布 $P_\theta(z|x)$ ，或条件概率分布 $P_\theta(x|z)$ ，在聚类、降维、概率模型估计中拥有不太的形式。比如，聚类中模型的输出是类别；降维中模型的输出是低维向量；概率模型估计中的模型可以是混合概率模型，也可以是有向概率图模型和无向概率图模型。

策略在不同的问题中有不佟的形式，但都可以表示为目标函数的优化。比如，聚类中样本与所属类别中心距离的最小化，降维中样本从高维空间到低维空间过程中信息损失的最小化，概率模型估计中模型生成数据概率的最大化。

算法通常是迭代算法，通过迭代达到目标函数的最大化，比如，梯度下降法。

YakultGo

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】统计学习方法——无监督学习概论

无监督学习的基本原理无监督学习是从无标注的数据中学习数据的统计规律或者说内在结构的机器学习，主要包括聚类、降维、概率估计。无监督学习可以用于数据分析或者监督学习的前处理。无监督学习使用无标注数据 U={x1,x2,⋯ ,xN}U=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}U={x1,x2,⋯,xN} 学习或训练，其中 xi,i=x_{i}, i=xi,i= 1,2,⋯ ,N,1,2, \cdots, N,1,2,⋯,N, 是样本 (实例)，由特征
复制链接

扫一扫