机器学习第十章

asdaasddsa

已于 2024-08-11 20:31:21 修改

阅读量1k

点赞数 24

文章标签：机器学习人工智能

于 2024-07-22 09:59:37 首次发布

本文链接：https://blog.csdn.net/zxsdss/article/details/140471967

版权

一、k近邻学习

k近邻（kNN）学习是一种常用的监督学习方法，功作机制为给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个邻居的信息来进行预测。其预测结果在分类任务中采用投票法，在回归任务中使用平均法。

k近邻学习没有显示的训练过程，是懒惰学习著名的代表；在训练阶段对样本进行学习处理的方法叫做急切学习。k近邻分类器的一个示意图如下所示：

其中当k取值不同时，分类的结果会不同；当距离计算方式不同时，分类结果也会有不同。最近邻分类器的泛化错误率不超过贝叶斯最优分类器错误率的两倍。

二、低维嵌入

在高维情形下出现的数据样本稀疏、距离计算困难等问题，是所有机器学习方法面临的共同的困难，叫做维度灾难。

缓解维度灾难的一个方法是降维，也叫维数约简，即通过某种数学变换将原始高维属性空间转换为一个低维子空间，在这个子空间中样本密度得到提高，距离计算也更加的容易。能进行降维的原因在于很多时候，人们观测或收集到的数据样本虽然是高维的，但与学习任务密切相关的也许仅是某个低维分布，即高维空间中一个低维嵌入。

若果要求原始空间中样本之间的距离在低维空间中得以保持，那么就可以得到多维缩放（MDS）降维方法。

假定m个样本在原始空间的距离矩阵为 $D\in R^{m*m}$ ，其中第i行j列的元素 $dist_{ij}$ 为样本 $x_i$ 到 $x_j$ 的距离，目标是要获取样本在 ${d}'$ 维空间的表示 $Z\in R^{{d}'*m},{d}'\leq d$ ，且任意两个样本在 ${d}'$ 维空间中的欧氏距离等于原始空间中的距离，即 $\left \| z_i-z_j \right \|=dist_{ij}$ 。

令 $B=Z^T Z\in R^{m*m}$ ，其中B为降维后样本的内积矩阵 $b_{ij}=z_i^Tz_j$ ，那么可以得到：

$dist_{ij}^2=||z_i||^2+||z_j||^2-2z_i^Tz_j=b_{ii}+b_{jj}-2b_{ij}$

在令降维后的样本Z中心化，那么矩阵B的行和列之和都为0，可以得到：

$\sum_{i=1}^{m}dist_{ij}^2=tr(B)+mb_{jj}$

$\sum_{j=1}^{m}dist_{ij}^2=tr(B)+mb_{ii}$

$\sum_{i=1}^{m}\sum_{i=j}^{m}dist_{ij}^2=2m\: tr(B)$

联立上述式子可以得到

$b_{ij}=-\frac{1}{2}(dist_{ij}^2-dist_{i\cdot }^2-dist_{\cdot j}^2+dist_{\cdot \cdot }^2)$

由该式子通过降维前后保持不变的距离矩阵D求取内积矩阵B，在对矩阵B进行特征值分解就可以得到Z。其算法流程为：

基于线性变换来进行降维的方法叫做线性降维方法，和MDS方法的不同之处在于对低维子空间的性质要求不同。对于降维效果的评估一般是比较降维前后学习器的性能。

三、主成分分析

主成分分析（PCA）是一种常见的降维方法。对于正交属性空间中的样本点，如果要用一个超平面多所有样本进行恰当的表达，那么这个超平面应该具有最近重构性：本点到超平面的距离足够近，即尽可能在超平面附近和最大可分性：样本点在超平面上的投影尽可能地分散开来，即投影后的坐标具有区分性。

基于最近重构性来推导，可以得到主成分分析的优化目标为：

$\underset{W}{min} \; \; -tr(W^TXX^TW)\; \; \; s.t.\; W^TW=I$

从最大可分性出发，可以得到优化目标为：

$\underset{W}{max}\; \; \; tr(W^TXX^TW)\; \; \; s.t.\; \; W^TW=I$

从上述可以知道，最近重构性与最大可分性虽然从不同的出发点来定义优化问题中的目标函数，但最终这两种特性得到了完全相同的优化问题。接着可以使用拉格朗日乘子法得到 $XX^TW=\lambda W$ ，因此只需对协方差矩阵进行特征值分解即可求解出W。PCA算法的流程如下：

PCA仅需保留W与样本的均值向量即可通过简单的向量减法和矩阵-向量乘法将新样本投影至低维空间中。

四、核化线性降维

线性降维方法假设从高维空间到低维空间的函数映射是线性的，但是在现实任务中，可能需要非线性映射才能找到恰当的低维嵌入。本真低维空间指的是原本采样的低维空间。基于核技巧对线性降维方法进行核化，这是非线性降维常用的方法。

核主成分分析（KPCA）的思想为若核函数的形式已知，即我们知道如何将低维的坐标变换为高维坐标，这时我们只需先将数据映射到高维特征空间，再在高维空间中运用PCA即可。

首先需要获取进行KPCA降维的数据，这里是使用了PCA方法和KPCA方法进行对比，展现数据集的代码为：

# 从sklearn.datasets导入make_circles函数，用于生成二维空间中的分类数据
from sklearn.datasets import make_circles
# 从sklearn.model_selection导入train_test_split函数，用于划分训练集和测试集
from sklearn.model_selection import train_test_split

# 生成1000个样本的数据集，其中factor参数控制两个圆之间的距离，noise参数控制数据的噪声水平
X, y = make_circles(n_samples=1_000, factor=0.3, noise=0.05, random_state=0)
# 将数据集划分为训练集和测试集，stratify参数保证训练集和测试集中各类别的比例与原始数据集相同
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

# 导入matplotlib.pyplot库，用于绘制图形
import matplotlib.pyplot as plt

# 创建两个子图，分别用于展示训练集和测试集
_, (train_ax, test_ax) = plt.subplots(ncols=2, sharex=True, sharey=True, figsize=(8, 4))

# 绘制训练集数据点，使用颜色区分类别
train_ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train)
# 设置坐标轴标签和标题
train_ax.set_ylabel("Feature #1")
train_ax.set_xlabel("Feature #0")
train_ax.set_title("Training data")

# 绘制测试集数据点，同样使用颜色区分类别
test_ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test)
# 设置坐标轴标签和标题
test_ax.set_xlabel("Feature #0")
_ = test_ax.set_title("Testing data")

# 显示图形
plt.show()

其原始数据集为：

接着就是进行降维操作了，这里的KPCA使用的是RBF内核：

# 导入绘图库
from matplotlib import pyplot as plt
# 导入生成圆形数据集的函数
from sklearn.datasets import make_circles
# 导入划分数据集的函数
from sklearn.model_selection import train_test_split

# 生成1000个样本的圆形数据集，factor参数控制两个圆之间的距离，noise参数控制数据的噪声水平
X, y = make_circles(n_samples=1_000, factor=0.3, noise=0.05, random_state=0)
# 划分数据集为训练集和测试集，stratify参数保证训练集和测试集中各类别的比例与原始数据集相同
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

# 导入PCA和KernelPCA类
from sklearn.decomposition import PCA, KernelPCA

# 创建一个PCA实例，保留所有主成分
pca = PCA(n_components=2)
# 创建一个KernelPCA实例，使用径向基函数(RBF)核，设置核函数的gamma参数，启用逆变换，设置正则化参数alpha
kernel_pca = KernelPCA(
    n_components=None, kernel="rbf", gamma=10, fit_inverse_transform=True, alpha=0.1
)

# 使用PCA对训练数据进行拟合并转换测试数据
X_test_pca = pca.fit(X_train).transform(X_test)
# 使用KernelPCA对训练数据进行拟合并转换测试数据
X_test_kernel_pca = kernel_pca.fit(X_train).transform(X_test)

# 创建一个包含三个子图的图形，用于展示原始数据、PCA投影数据和KernelPCA投影数据
fig, (orig_data_ax, pca_proj_ax, kernel_pca_proj_ax) = plt.subplots(
    ncols=3, figsize=(14, 4)
)

# 绘制原始测试数据
orig_data_ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test)
orig_data_ax.set_ylabel("Feature #1")
orig_data_ax.set_xlabel("Feature #0")
orig_data_ax.set_title("Testing data")

# 绘制PCA投影后的测试数据
pca_proj_ax.scatter(X_test_pca[:, 0], X_test_pca[:, 1], c=y_test)
pca_proj_ax.set_ylabel("Principal component #1")
pca_proj_ax.set_xlabel("Principal component #0")
pca_proj_ax.set_title("Projection of testing data\n using PCA")

# 绘制KernelPCA投影后的测试数据
kernel_pca_proj_ax.scatter(X_test_kernel_pca[:, 0], X_test_kernel_pca[:, 1], c=y_test)
kernel_pca_proj_ax.set_ylabel("Principal component #1")
kernel_pca_proj_ax.set_xlabel("Principal component #0")
_ = kernel_pca_proj_ax.set_title("Projection of testing data\n using KernelPCA")

# 显示图形
plt.show()

结果为：

五、流形学习

流形学习是一类借鉴了拓扑流行概念的降维方法，流形是在局部与欧氏空间同胚的空间，即它在局部具有欧氏空间的性质，能用欧氏距离来进行距离计算。

1.等度量映射

等度量映射的出发点是认为低维流形嵌入到高维空间后，直接在高维空间中计算直线距离具有误导性，因为高维空间中的直线距离在低维嵌入流形上是不可达的。因此利用流形在局部上与欧式空间同胚的性质，可以使用近邻距离来逼近测地线距离，即对于一个样本点，它与近邻内的样本点之间是可达的，且距离使用欧式距离计算，这样整个样本空间就形成了一张近邻图，高维空间中两个样本之间的距离就转为最短路径问题。

可采用著名的Dijkstra算法或Floyd算法计算最短距离，得到任意两点之间的距离后便可以使用MDS算法来其计算低维空间中的坐标。Isomap算法的流程如下所示：