数据挖掘中常用算法对比--核心思想、算法优缺点及应用领域

最新推荐文章于 2021-03-19 22:38:34 发布

@Hua.

最新推荐文章于 2021-03-19 22:38:34 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习 Python 数据分析文章标签：机器学习算法 python 人工智能

本文链接：https://blog.csdn.net/weixin_44304168/article/details/114090301

版权

数据分析同时被 3 个专栏收录

3 篇文章 14 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

Python

1 篇文章 0 订阅

订阅专栏

数据挖掘中常用算法简介

前言
监督学习之分类
监督学习之回归
无监督学习

前言

随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文简单介绍在数据建模过程中常用的一些机器学习算法，归纳其核心思想、算法优缺点及主要应用领域。内容涵盖有监督学习中的分类算法（KNN、决策树、朴素贝叶斯、逻辑回归、SVM、Adaboost等）和回归算法（线性回归、岭回归、树回归）、无监督学习中的聚类算法（K-Means）、关联分析（Apriori）、统计学习（EM）、链接挖掘（PageRank）。并在后续系列文章中对这些算法进行详细说明。

监督学习之分类

通俗的讲就是将一些事物按照一定的规则划分为若干个分类，这个规则的不同就产生了许多不同的分类算法。

k近邻算法（KNN）

核心思想：采用测量不同特征值之间的距离方法进行分类，在前k个相似数据中，若大多数都属于某个分类，那么新数据也将划分到该分类中。
算法优点：精度高、对异常值不敏感、无数据输入假定、适合于多分类问题，理解起来较简单。
算法缺点：计算复杂度高、空间复杂度高、算法原理可解释性较差。
应用领域：客户流失预测、欺诈侦测、模式识别等。

决策树（C4.5）

核心思想：以信息增益率为衡量标准实现对数据归纳分类。
算法优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。
算法缺点：数结构太复杂时容易出过拟合现象。
应用领域：临床决策、生产制造、文档分析、生物信息学、空间数据建模等。

朴素贝叶斯

核心思想：根据某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。
算法优点：在数据较少的情况下仍然有效，可以处理多类别问题，算法简单，对缺失数据不明感，有着坚实的数学基础，以及稳定的分类效率。
算法缺点：对于输入数据的准备方式较为敏感；算法要求每个属性之间是相互独立，但现实往往无法满足。
应用领域：垃圾邮件过滤，文本分类，新闻分类等。

逻辑回归（Logistic）

核心思想：根据现有数据对分类边界线建立回归公式，以此进行分类。训练分类器时的做法就是寻找最佳拟合参数，使用的是最优化算法。
算法优点：计算代价不高，易于理解和实现。
算法缺点：容易欠拟合，分类精度可能不高。
应用领域：疾病自动诊断，经济预测等。

支持向量机（SVM）

核心思想：建立一个最优决策超平面，使得该平面两侧距离平面最近的两类样本之间的距离最大化，从而对分类问题提供良好的泛化能力
算法优点：泛化错误率低，解决非线性问题的同时避免维度灾难，可找到全局最优。
算法缺点：对参数调节和核函数的选择敏感，运算效率低，计算时占用资源过大。
应用领域：人像识别，遥感图像分类，污水处理过程运行状态监控等。

Adaboost

核心思想：针对同一份数据训练多个不同的弱分类器，然后将这些弱分类器组合成一个强分类器。
算法优点：高精度，无需做特征筛选，不会过度拟合，可以应用在大部分分类器上，无参数调整。
算法缺点：对离群点敏感，训练时间过长，执行效果依赖于弱分类器的选择。
应用领域：人脸检测、目标识别等

随机森林

核心思想：将多个决策树分类器组合到一起成为一个大的分类器，训练每个决策树的训练集都是随机有放回抽样的，做分类预测时，每一棵树都会进行预测，然后取预测结果中占比最多的一个作为最终预测结果。
算法优点：准确率高，灵活性高，可直接处理高维度数据，缺失值不敏感。
算法缺点：运算代价高，效率较低。
应用领域：疾病风险预测，市场营销模拟建模等。

监督学习之回归

线性回归

线性回归类型较多，这里讲述的是最简单的一元线性回归，其他线性回归原理类似。
核心思想：将数据拟合成一条直线（其他回归不一定是直线），使尽可能多的点分布在直线上或直线的两侧，使得每一个数据点到拟合直线的距离总和最小。
算法优点：结果易于理解，计算上不复杂。
算法缺点：受离群点影响，非线性数据拟合效果较差
应用领域：房价预测等连续型数据预测。

岭回归

核心思想：一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。
算法优点：对于回归分析中的共线性问题具有很强的抵抗力。
算法缺点：不具有特征选择功能。
应用领域：连续型数值预测。

树回归（CART）

核心思想：以基于最小距离的尼基指数估计函数为衡量标准对数据进行递归分类，既可以用于分类也可以用于回归。
算法优点：可以对复杂和非线性的数据建模，面对存在缺失值、变量数多等问题时非常稳健。
算法缺点：要求被选择的属性只能产生两个子节点；类别过多时，错误可能增加的较快。
应用领域：信息失真识别，潜在客户识别，预测贷款风险等。

时间序列（ARIMA）

核心思想：通过确定使非平稳序列差分次数、自相关系数和偏自相关系数等参数对时间序列数据进行分析。
算法优点：可以处理非平稳的时间序列，预测真确率高。
算法缺点：只适合进行短时间预测，预测时间太长时预测数据趋近于定值。
应用领域：销量预测、天气预报等。

无监督学习

KMeans聚类分析

核心思想：根据输入的训练数据和聚类个数k，输出满足方差最小标准的k个聚类。
算法优点：实现简单，容易理解。
算法缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。
应用领域：客户价值分析，用户营销手段决策等。

Apriori关联分析

核心思想：基于两阶段频繁项集思想并结合支持度与置信度来挖掘关联规则的算法。
算法优点：原理简单易理解，实现简单。
算法缺点：耗时长，计算量大，在大数据集上可能较慢。
应用领域：入侵检测、移动通信、商品定价、市场促销、存货管理等

EM统计学习

核心思想：通过E步骤和M步骤使得期望最大化。
算法优点：简单稳定。
算法缺点：迭代速度慢，次数多，容易陷入局部最优。
应用领域：参数估计（例如高斯混合模型的参数），隐式马尔科夫算法和LDA主题模型的变分推断等。

PageRank链接挖掘

核心思想：基于从许多优质的网页链接过来的网页，必定还是优质网页的回归关系，来判定所有网页的重要性。
算法优点：完全独立于查询，只依赖于网页链接结构，可以离线计算。
算法缺点：忽略了网页搜索的时效性；旧网页排序很高，存在时间长，积累了大量的in-links，拥有最新资讯的新网页排名却很低，因为它们几乎没有in-links。
应用领域：页面排序。

撰写参考：

数据挖掘十大算法总结–核心思想，算法优缺点，应用领域
 EM算法详解
机器学习实战(Peter Harrington)
python数据分析与实战(张良均)