数据挖掘之十大经典算法

最新推荐文章于 2023-01-25 11:14:55 发布

皮皮攻城狮

最新推荐文章于 2023-01-25 11:14:55 发布

阅读量256

点赞数 2

分类专栏：数据挖掘十大经典算法文章标签：数据挖掘算法经典算法

本文链接：https://blog.csdn.net/weixin_44797327/article/details/103120407

版权

数据挖掘十大经典算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、C4.5

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；
2) 在树构造过程中进行剪枝；
3) 能够完成对连续属性的离散化处理；
4) 能够对不完整数据进行处理。

C4.5算法有如下优点：

产生的分类规则易于理解，准确率较高。

其缺点是：

在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

2、K-Means算法

k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。

它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

3、Support vector machines（SVM）

支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。
支持向量机它是一种监督式的学习方法，它广泛的应用于统计分类以及回归分析中。
支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。
假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.CBurges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。

4、The Apriori algorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。
该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

5、最大期望(EM)算法

统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。
最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。

6、PageRank

PageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。
PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。

7、AdaBoost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。
其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

8、kNN: k-nearest neighbor classification

K最近邻(k-Nearest Neighbor，KNN)分类算法，是著名的模式识别统计学方法，已经有四十年的历史，一个理论上比较成熟的方法，也是最简单的机器学习算法之一。
单从名字来猜想，可以简单粗暴的认为是：K个最近的邻居，当K=1时，算法便成了最近邻算法，即寻找最近的那个邻居。为何要找邻居？打个比方来说，假设你来到一个陌生的村庄，现在你要找到与你有着相似特征的人群融入他们，所谓入伙。
kNN算法的指导思想是“近朱者赤，近墨者黑”，由你的邻居来推断出你的类别。
所谓K近邻算法，即给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中
K近邻算法的核心思想：依据统计学的理论看它所处的位置特征，衡量它周围邻居的权重，而把它归为(或分配)到权重更大的那一类。
K近邻算法的核心在于找到实例点的邻居，问题就接踵而至了，如何找到邻居，邻居的判定标准是距离度量表示法，用什么来度量。

9、Naive Bayes

在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBC）。
朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。
同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。
理论上，NBC模型与其他分类方法相比具有最小的误差率。
但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。

10、CART算法

CART（Classification and Regression Trees，分类与回归树）算法是一种非常有趣并且十分有效的非参数分类和回归方法，它通过构建二叉树达到预测目的。该方法是四位美国统计学家耗时十多年辛勤劳动成果。
在分类树下面有两个关键的思想：
第一个是关于递归地划分自变量空间的想法；
第二个想法是用验证数据进行剪枝。

皮皮攻城狮

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
数据挖掘之十大经典算法

1、C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2) 在树构造过程中进行剪枝；3) 能够完成对连续属性的离散化处理；4) 能够对不完整数据进行处理。C4.5算法有如下优点：产生的分类...
复制链接

扫一扫