无监督学习的基本原理
无监督学习是从无标注的数据中学习数据的统计规律或者说内在结构的机器学习,主要包括聚类、降维、概率估计。无监督学习可以用于数据分析或者监督学习的前处理。
无监督学习使用无标注数据
U
=
{
x
1
,
x
2
,
⋯
,
x
N
}
U=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}
U={x1,x2,⋯,xN} 学习或训练,其中
x
i
,
i
=
x_{i}, i=
xi,i=
1
,
2
,
⋯
,
N
,
1,2, \cdots, N,
1,2,⋯,N, 是样本 (实例),由特征向量组成. 无监督学习的模型是函数
z
=
g
θ
(
x
)
z=g_{\theta}(x)
z=gθ(x) 条件概率分布
P
θ
(
z
∣
x
)
,
P_{\theta}(z \mid x),
Pθ(z∣x), 或条件概率分布
P
θ
(
x
∣
z
)
.
P_{\theta}(x \mid z) .
Pθ(x∣z). 其中
x
∈
X
x \in X
x∈X 是输入, 表示样本
i
z
∈
Z
_{i} z \in Z
iz∈Z 是输出,表示对样本的分析结果, 可以是类别、转换、概率:
θ
\theta
θ 是参数。 假设训练数据集由
N
N
N 个样本组成, 每个样本是一个
M
M
M 维向量. 训练数据可以由 一个矩阵表示, 每一行对应一个特征, 每一列对应一个样本.
X
=
[
x
11
⋯
x
1
N
⋮
⋮
x
M
1
⋯
x
M
N
]
X=\left[\begin{array}{ccc} x_{11} & \cdots & x_{1 N} \\ \vdots & & \vdots \\ x_{M 1} & \cdots & x_{M N} \end{array}\right]
X=⎣⎢⎡x11⋮xM1⋯⋯x1N⋮xMN⎦⎥⎤
其中,
x
i
j
x_{i j}
xij 是第
j
j
j 个向量的第
i
i
i 维:
i
=
1
,
2
,
⋯
,
M
:
j
=
1
,
2
,
⋯
,
N
i=1,2, \cdots, M: j=1,2, \cdots, N
i=1,2,⋯,M:j=1,2,⋯,N
无监督学习是一个困难的任务,因为数据没有标注,也就是没有人的指导,机器 需要自己从数据中找出规律。模型的输入
x
x
x 在数据中可以观测,而输出 z 隐藏在数 据中。无监督学习通常需要大量的数据,因为对数据隐藏的规律的发现需要足的的 观测。
基本问题
1、聚类
聚类(clustering)是将样本集合中相似的样本 (实例) 分配到相同的类,不相似 的样本分配到不同的类。聚类时,样本通常是欧氏空间中的向量,类别不是事先给定,而是从数据中自动发现,但类别的个数通常是事先给定的。样本之间的相似度或距离由应用决定。如果一个样本只能属于一个类, 则称为硬聚类 (hard clustering): 如果一个样本可以属于多个类, 则称为软聚类 (soft clustering) 。
假设输入空间是欧氏空间 X ⊆ R d X \subseteq \mathbf{R}^{d} X⊆Rd, 输出空间是类别集合 Z = { 1 , 2 , ⋯ , k } . Z=\{1,2, \cdots, k\} . Z={1,2,⋯,k}. 聚类的模型是函数 z = g θ ( x ) z=g_{\theta}(x) z=gθ(x) 或者条件概率分布 P θ ( z ∣ x ) , P_{\theta}(z \mid x), Pθ(z∣x), 其中 x ∈ X x \in X x∈X 是样本的向 量, z ∈ Z z \in Z z∈Z 是样本的类别, θ \theta θ 是参数。前者的函数是硬聚类模型, 后者的条件概率分布 是软聚类模型。
2、降维
降维(dimensionality reduction)是将训练数据中的样本(实例)从高维空间转换 到低维空间。假设样本原本存在于低维空间,或者近似地存在于低维空间,通过降维 则可以更好地表示样本数据的结构,即更好地表示样本之间的关系。高维空间通常是 高维的欧氏空间,而低维空间是低维的欧氏空间或者流形 (manifold)。低维空间不是 事先给定,而是从数据中自动发现,其维数通常是事先给定的。从高维到低维的降维中,要保证样本中的信息损失最小。降维有线性的降维和非线性的降维。
假设输入空间是欧氏空间 X ⊆ R d X \subseteq \mathbf{R}^{d} X⊆Rd, 输出空间也是欧氏空间 Z ⊆ R d ′ , d ′ ≪ d , Z \subseteq \mathbf{R}^{d^{\prime}}, d^{\prime} \ll d, Z⊆Rd′,d′≪d, 后者的维数低于前者的维数。降维的模型是函数 z = g θ ( x ) , z=g_{\theta}(x), z=gθ(x), 其中 x ∈ X x \in X x∈X 是样本的高维向量,z ∈ \in ∈Z 是样本的低维向量, θ \theta θ 是参数。函数可以是线性函数也可以是非线性函数。
3、概率模型估计
概率模型估计(probability model estimation),简称概率估计,假设训练数据由 个概率模型生成,由训练数据学习概率模型的结构和参数。概率模型的结构类型, 或者说概率模型的集合事先给定,而模型的具体结构与参数从数据中自动学习。学习 的目标是找到最有可能生成数据的结构和参数。概率模型包括混合模型、概率图模型 等。概率图模型又包括有向图模型和无向图模型。
机器学习三要数
模型、策略、算法
模型就是函数 z = g θ ( x ) z=g_\theta(x) z=gθ(x),条件概率分布 P θ ( z ∣ x ) P_\theta(z|x) Pθ(z∣x),或条件概率分布 P θ ( x ∣ z ) P_\theta(x|z) Pθ(x∣z),在聚类、降维、概率模型估计中拥有不太的形式。比如,聚类中模型的输出是类别;降维中模型的输出是低维向量;概率模型估计中的模型可以是混合概率模型,也可以是有向概率图模型和无向概率图模型。
策略在不同的问题中有不佟的形式,但都可以表示为目标函数的优化。比如,聚类中样本与所属类别中心距离的最小化,降维中样本从高维空间到低维空间过程中信息损失的最小化,概率模型估计中模型生成数据概率的最大化。
算法通常是迭代算法,通过迭代达到目标函数的最大化,比如,梯度下降法。