无监督学习与维度约减机器学习基础(7)

最新推荐文章于 2024-01-01 21:53:54 发布

海上机械师

最新推荐文章于 2024-01-01 21:53:54 发布

阅读量1.7k

点赞数 1

分类专栏：算法机器学习文章标签：机器学习无监督学习 k-means 聚类 PCA

本文链接：https://blog.csdn.net/i_love_home/article/details/50759134

版权

算法同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

机器学习

15 篇文章 0 订阅

订阅专栏

无监督学习

无监督学习算法只需要样本 $x$ （无标签），这种算法可应用于细分市场、文本总结等应用。同时，无监督学习模块中引入了主成分分析（Principal components analysis, PCA），用于加速学习，它在可视化方面非常有效，帮助我们理解数据。

聚簇

无监督学习：引言

从无标签的数据中学习。
这里我们介绍一下监督学习与无监督学习的区别。

无监督学习引言

聚簇（Clustering algorithm）是无监督学习的一种方法。

聚簇的应用包含：

细分市场 Market segmentation
社会网络分析 Social network analysis
组织运算集群 Organize computing clusters
天文数据分析 Astronomical data analysis

K 均值算法

K 均值算法的目标是将有紧密关系的子集/簇聚集起来，该方法是一种迭代的方法，算法的输入是簇的个数 $K$ ，训练集为无标签的数据集。

1 k-means 算法

$x^{(i)}$ 为样本点; $c^{(i)}$ 为 $x^{(i)}$ 的簇中心; ${\mu _k}$ 为簇中心

Randomly initialize $k$ cluster centroids ${\mu _1},{\mu _1}, \cdots ,{\mu _K} \in {\mathbb{R}^n}$
Repeat {
$~~~~~~~~$ for $i$ = 1 to $m$ do
$~~~~~~~~~~~~~~~~$ $c^{(i)}$ := index (from 1 to $K$ ) of cluster centroid closest to $x^{(i)}$
$~~~~~~~~$ for $k$ = 1 to $K$ do
$~~~~~~~~~~~~~~~~$ ${\mu _k}$ := average (mean) of points assigned to cluster $k$
}

2 k-means 应对不可划分的簇

簇不可划分

优化目标

k-means 的优化目标函数为

优化目标

其中 $\left\| {{x^{\left( i \right)}} - {\mu _{{c^{\left( i \right)}}}}} \right\|$ 为 $x^{(i)}$ 与其所在簇 $c^{(i)}$ 中心的距离， $k = c^{(i)}$ 。

k-meas 算法的实质是将 $c^{(i)}$ 与 ${\mu _k}$ 分开来求最优值，并迭代（代价递减）直至收敛。

$K$ 均值算法的代价函数 $J$ 又称失真函数（Distortion function），算法可能收敛至局部最优点。

随机初始化

一般来讲，当 $K = [2, 10]$ ，随机初始化会使得结果较好。其实质是反复地选择初始中心点，取最好的一次。随机的位置是从 $x^{(i)}$ 中去选，这些的效果较好。

簇数的选择

簇数的选择是一个问题，在一个目标中， $K = 2 ~ or ~ K = 4$ 都很难说明哪个更合适，问题如下图所示。

簇数的选择

确定 $K$ 的方法有“肘点法则”（Elbow method）、从应用出发：

1)“肘点法则”: 代价 $J$ 应采用“随机初始化”的方法求其最小值。
2) 从应用出发选择 $K$; 以 T-shirt 尺寸划分为目标，S/M/L 或 XS/S/M/L/XL 尺寸。

维度约减

在这一模块中，我们介绍主成分分析（Principal components analysis, PCA），应用于数据压缩（Data compression），以至于加速学习算法效率，适用于复杂数据的可视化。
维度约减是一种无监督学习，它的实质是去除冗余特征。

动机

动机：数据压缩

数据压缩

动机：可视化

$n{\kern 1pt} {\kern 1pt} {\kern 1pt} {\text{D}} \to 2{\text{D/3D/1D}}\left( {/4{\text{D}}} \right)$

新的坐标轴与原数据有大致的对应关系。

主成分分析

主成分分析是常用的降维方法。

主成分分析的公式描述

在主成分分析中，特征规范化与均值归一化是必需的。主成分分析目标的数据描述为最小化投影误差的平方，即点与投影后的对应点之间的距离的平方值最小化。

PCA 与线性回归的区别如下图所示。

主成分分析

主成分分析算法

PCA 执行前必须对数据集进行与处理，从而对数据进行有效地降维。

1 数据预处理

对数据做规范化处理，

μ j = 1 m \sum i = 1 m x (i) j x (i) j = x j - μ j

$\eqalign{ & {\mu _j} = \frac{1}{m}\sum\limits_{i = 1}^m {x_j^{\left( i \right)}} \cr & x_j^{\left( i \right)} = {x_j} - {\mu _j} \cr}$

当特征值的范围相差很大时，有必要做归一化处理，

s j = max i {x (i) j} - min i {x (i) j} t h e n x (i) j = x j - μ j s j

$\eqalign{ & {s_j} = \mathop {\max }\limits_i \left\{ {x_j^{\left( i \right)}} \right\} - \mathop {\min }\limits_i \left\{ {x_j^{\left( i \right)}} \right\} \cr & then{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} x_j^{\left( i \right)} = \frac{{{x_j} - {\mu _j}}}{{{s_j}}} \cr}$

2 PCA 算法

${x^{\left( i \right)}} \in \mathbb{R}^n \to {x^{\left( i \right)}} \in {{\mathbb{R}}^K},K \leqslant n$

1 计算 协方差矩阵

协方差矩阵记作Sigma（或

∑ $\sum$ ）

Sigma = \sum = 1 m \sum i = 1 n (x (i)) (x (i)) T = 1 m X T X

${\text{Sigma}} = \sum = \frac{1}{m}\sum\limits_{i = 1}^n {\left( {{x^{\left( i \right)}}} \right){{\left( {{x^{\left( i \right)}}} \right)}^{\text{T}}}} {\text{ = }}\frac{1}{m}{X^{\text{T}}}X$
其中，

X = [x (1) \dots x (n)] T

$X = {\left[ {\begin{array}{*{20}{c}} {{x^{\left( 1 \right)}}}& \cdots &{{x^{\left( n \right)}}} \end{array}} \right]^{\text{T}}}$

2 计算协方差矩阵的 特征向量

通过奇异值分解（Singular value decomposition, SVD）求

X $X$ 的特征向量。
[u, s, v] = svd(Sigma)
其中，

u $u$ 为特征向量，

u∈Rn×n ${\text{u}} \in {\mathbb{R}^{n \times n}}$ ，

u = [u (1) \dots u (K) \dots u (n)] n \times n

${\text{u}} = {\left[ {\begin{array}{*{20}{c}} {{u^{\left( 1 \right)}}}& \cdots &{{u^{\left( K \right)}}}& \cdots &{{u^{\left( n \right)}}} \end{array}} \right]_{n \times n}}$
新的特征

z $z$ 为

z = [u (1) \dots u (K)] T x

$z = {\left[ {\begin{array}{*{20}{c}} {{u^{\left( 1 \right)}}}& \cdots &{{u^{\left( K \right)}}} \end{array}} \right]^{\text{T}}}x$

应用主成分分析

于压缩表达式中重构

重构是将压缩得到的特征 $z$ ，近似重构出原来的高维特征。

$z = {\left[ {\begin{array}{*{20}{c}} {{u^{\left( 1 \right)}}}& \cdots &{{u^{\left( K \right)}}} \end{array}} \right]^{\text{T}}}x$

同样的，

$x’ = {\left[ {\begin{array}{*{20}{c}} {{u^{\left( 1 \right)}}}& \cdots &{{u^{\left( K \right)}}} \end{array}} \right]^{\text{T}}}z$

其中，

u (i) \in R n \times 1, x \in R n \times 1, z \in R K \times 1 [u (1), \dots, u (K)] \in R n \times K x' ≐ x

$\begin{gathered} {u^{\left( i \right)}} \in {\mathbb{R}^{n \times 1}},x \in {\mathbb{R}^{n \times 1}},z \in {\mathbb{R}^{K \times 1}} \\ \left[ {{u^{\left( 1 \right)}}, \cdots ,{u^{\left( K \right)}}} \right] \in {\mathbb{R}^{n \times K}} \\ x' \doteq x \\ \end{gathered}$

令 $U = \left[ {{u^{\left( 1 \right)}}, \cdots ,{u^{\left( n \right)}}} \right]$ ， $U$ 为酉矩阵；记 ${x_{approx}} = x'$ 。

主成分数量的选择

$K$ 为主成分的数量，那么 $K$ 如何选择才能更合适呢？有多种方法可以用于确定参数 $K$ 的值。

与参数 $K$ 相关的 2 个数值：
1 平均平方 映射误差: $\frac{1}{m}\sum\limits_{i = 1}^m {{{\left\| {{x^{\left( i \right)}} - x_{approx}^{\left( i \right)}} \right\|}^2}} \xrightarrow{{目标}}\min$; $\frac{1}{m}\sum\limits_{i = 1}^m {{{\left\| {{x^{\left( i \right)}}} \right\|}^2}}$