一、聚类算法
常见的聚类算法:
1.1、K-Means算法:
首先,需要知道该数据应该分成几类,假如为K类,那么,在数据中随机初始化k个点,维度和数据点的维度保持一致,然后计算机数据集中所有点与这k 个点之间的距离,将每个数据点分到离它最近的中心点的类别中,然后将各个分到中心点的数据点的各个维度求均值获得新的中心点,多次重复以上操作,直到所有数据点分到中心点的类别不在发生变化,将达到聚类的目的,最终的利用误差损失函数进行衡量,当误差损失最小将进行收敛。
优点:速度快,适合工业领域
缺点:需要事先直到数据的类别数K,另外对于异常值不敏感
1.2、K-medians算法
该算法实在K-mean算法上的改进,唯一的区别是将分到各个类别中的点,进行一次排序求取中位数作为新的中心点,其他的没变化。
优点:对异常值比较敏感,速度稍微能慢点
缺点:需要知道类别数
1.3、mean-shift算法
该算法是一个基于窗口滑动的算法,对于数据点集,初始化多个中心点,以这些中心点为圆心,设置一个长度为r的半径,将这个圆形区域进行滑动,根据每个数据点到圆心的距离与半径r的比较,确定圆内的数据点的个数,然后将包含在圆内的点求均值作为新的圆心进行滑动,直到该圆包含最多的数据点为止,对于多个圆重叠区域将包含最多的数据点的作为这些点的最终类别。
二、降维算法
2.1 因子分析算法
该算法的任务就是降维,将含有多个特征进行分析,用几个代表性的特征表征全部的特征。研究指标的相关矩阵的依赖关系出发进行分析,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。基本思想是:根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。
实例解释:如何通俗地解释因子分析? - 知乎
因子分析法的步骤:
应用因子分析法的主要步骤如下:
(1)对数据样本进行标准化处理。
(2)计算样本的相关矩阵R(相关矩阵就是特征之间的相关性矩阵,用来衡量特征之间的相关程度)。
(3)求相关矩阵R的特征根和特征向量。
(4)根据系统要求的累积贡献率确定主因子的个数。
(5)计算因子载荷矩阵A。
(6)确定因子模型。
(7)根据上述计算结果,对系统进行分析。
具体实现过程:因子分析法 - MBA智库百科
2.2 、主成分分析(PCA)
主成分分析的主要任务也是降维,将冗余的、重复的特征进行降维处理,获得更有代表性的特征进行表征对象,它的本质是将所有特征进行了线性组合获得新的几个能够代表对象的特征,然而有因子分析采用的是根据相关性进行分组,每组中特征相关性高,但是组与组之间的特征相关性低,每组中选取一个特征作为该组的代表,达到降维的目的。
三、频率模式挖掘算法
相关链接:频繁模式挖掘算法及其原理_RLilyX的博客-CSDN博客_频繁模式挖掘
核心理解: 1)支持度:可以有效刻画项集的发生频率,
2)置信度:可以有效刻画项集之间的依赖关系,有效发现事件之间的并发关系。
支持度和置信度利用设置的阀值进行筛选。
四、关联规则 算法
相关链接:机器学习典型应用1--关联规则_lemon_wsm的博客-CSDN博客_机器学习关联规则
1)该算法基于频率模式挖掘算法,针对事物的支持度和置信度的阀值选择进行频繁项集的筛选;
2)然后计算提升度,根据提升度的与1的大小进行确定项集之间的关联程度,小于1时无强关联,等于1时互相独立,大于1时强关联。
五、综合评价算法:
1、TOPSIS法
TOPSIS法(Technique for Order Preference by Similarity to Ideal Solution) 可翻译为逼近理想解排序法,国内常简称为优劣解距离法 TOPSIS 法是一种常用的综合评价方法,其能充分利用原始数据的信息, 其结果能精确地反映各评价方案之间的差距。