NUAA数据融合实验课报告

最新推荐文章于 2024-02-20 17:29:43 发布

阿迪不想上班

最新推荐文章于 2024-02-20 17:29:43 发布

阅读量941

点赞数

分类专栏：经验分享文章标签： python 算法模拟退火算法支持向量机均值算法

本文链接：https://blog.csdn.net/weixin_43916997/article/details/119748691

版权

经验分享专栏收录该内容

28 篇文章 4 订阅

订阅专栏

数据融合实验报告

聚类算法-K-means

1.算法原理

概念

K-均值（K-Means）算法是典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。
K个初始聚类中心点的选取对聚类结果具有较大的影响，因为在该算法第一步中是随机地选取任意k个对象作为初始聚类中心，初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象，根据其与各个簇中心的距离赋给最近的簇。当考查完所有数据对象后，一次迭代运算完成，新的聚类中心被计算出来。

算法思想

时间复杂度
$O (t k n m)$
其中，t 为迭代次数，k 为簇的数目，n 为样本点数，m 为样本点维度。

空间复杂度
$O (m (n + k))$
其中，k 为簇的数目，m 为样本点维度，n 为样本点数。

2.实验内容

了解K-均值算法，加强对非监督学习算法的理解和认识。采用开源代码，了解其算法思想，通过控制变量法探讨迭代次数n和分类数K的取值对实验结果的影响。找到分类结果收敛的最小n值和最合适的分类数目K值。

3.实验环境

Windows10操作系统
Python 3.8
PyCharm工作台

4.实验结果

迭代次数n的讨论

分类数K=3，迭代次数n=2

分类数K=3，迭代次数n=3

分类数K=3，迭代次数n=5

分类数K的讨论

迭代次数n=3，分类数K=2

迭代次数n=3，分类数K=3

5.分析讨论

1、分析可知，迭代次数当增大到一定值后，聚类中心不发生变化，分类结果已经收敛，很多时候我们可能不必跑到最终结果，因此可以选择此时的n为迭代次数，大概就是折线图的折点，多于n消耗更多的性能，小于n结果可能并未达到理想条件。本案例中在n等于3-5时，聚类中心基本不再改变，因此可取n为3-5。算法逻辑简单，处理数据时具有可伸缩性和高效性。

2、对应本例的数据集，通过对比分类数K的值，可以得出结论：当分类数K=2时，类之间的区别更加明显，此时分类效果最好。所以说，分类数K值的选取需要一定的考虑。在大多数情况下，K值是未预先定义的，因此许多场景下K-均值算法并没有办法进行下去。但是，也有一些改进方法，对于可以确定K值不会太大但不明确精确的K值的场景，可以进行迭代运算，然后找出Cost Function最小时所对应的K值，这个值往往能较好的描述有多少个簇类。

6.个人感想

K-均值算法让我对无监督算法有了一定的了解。无监督的训练样本没有标签信息。K-均值算法原理和实现还是相对简单的，调参也方便些，并且可解释度强。在一些情况下，达到最优分类效果，则需要跑到分类结果完全收敛，此时调节类别K即可。当类别K确定时，调节迭代次数n可找到最优的折点。但是同样存在着缺点，K值不好选取，手动调节也无法证明哪个K是最优的。采用迭代也只是局部最优。对于噪音和异常点比较敏感。

我对算法的学习了解只是九牛一毛，未来学习的路还有很长，还是需要一步一个脚印的走下去！

分类算法-SVM与Adaboost的对比

1.概念先知

人脸识别

人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术，通常也叫做人像识别、面部识别。

SVM支持向量机

支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。

核心思想

它是针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。
它基于结构风险最小化理论之上再特征空间中构建最优超平面，使得学习器得到全局最优化，并且在整个样本空间的期望以某个概率满足一定上界。

Adaboost自适应提升算法

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。对AdaBoost算法的研究以及应用大多集中于分类问题，同时也出现了一些在回归问题上的应用。就其应用AdaBoost系列主要解决了: 两类问题、多类单标签问题、多类多标签问题、大类单标签问题、回归问题。它用全部的训练样本进行学习。

核心思想

初始化所有样本的权重，让所有样本的权重的初始值相等。
用样本的一个子集来创建一个弱分类器（比如一棵决策树）。
用刚创建的弱分类器，对所有的样本进行预测，获得预测结果。
增大预测错误的样本的权重。
在更新了权重的样本上创建第二个弱分类器。
依此类推，继续创建若干个弱分类器，直至新创建的弱分类器的精度不再变化，或者达到了弱分类器数目的上限。
把上面生成的弱分类器组合成一个强分类器。