常见机器学习算法的优缺点

贝攵宀豕

已于 2022-10-24 22:10:55 修改

阅读量703

点赞数

分类专栏：机器学习文章标签： 1024程序员节机器学习

于 2022-10-24 21:40:41 首次发布

本文链接：https://blog.csdn.net/weixin_44204857/article/details/127502352

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

常见机器学习算法的优缺点

有监督学习

线性回归

优点：实现简单，计算简单。

缺点：不能拟合非线性数据。

KNN

优点：

理论成熟，思想简单，容易实现，既可以用来做分类也可以用来做回归；
可用于非线性分类；
模型训练时间快，训练时间复杂度为 O(n)，KNN 算法时惰性的；
对数据没有假设，准确度高，对异常值不敏感；
KNN 是一种在线技术，新数据可以直接加入数据集而不必进行重新训练；

缺点：

对内存要求较高，因为该算法存储了所有训练数据；
对于样本容量大的数据集计算量比较大（体现在距离计算上）；
样本不平衡时，预测偏差比较大。如：某一类的样本比较少，而其它类样本比较多；
KNN每一次分类都会重新进行一次全局运算；
k值大小的选择没有理论选择最优，往往是结合K-折交叉验证得到最优k值选择；

逻辑回归

优点：

可解释性强，便利的观测样本概率分数；
分类时计算量非常小，速度很快，存储资源低，实现简单，广泛的应用于工业问题上；
对逻辑回归而言，多重共线性并不是问题，它可以结合 L2 正则化来解决该问题；

缺点：

当特征空间很大时，逻辑回归的性能不是很好；
容易欠拟合，一般准确度不太高；
不能很好地处理大量多类特征或变量；
只能处理二分类问题（在此基础上衍生出来的 softmax 可以用于多分类），且必须线性可分；
需要解决特征共线性问题，如果特征共线性较高，训练的权重不满秩，有模型不收敛的可能；
对于异常值和缺失值非常敏感，需要提前进行数据处理；
模型训练前需要特征归一化，不然进行梯度下降寻找最优值时会收敛很慢或者不收敛；
对于非线性连续特征需要连续特征离散化；

应用：

用于二分类领域，可以得出概率值，适用于根据分类概率排名的领域，如搜索排名等
逻辑回归的扩展 softmax 可以应用于多分类领域，如手写字识别等
信用评估
测量市场营销的成功度
预测某个产品的收益
特定的某天是否会发生地震

SVM

优点：

可以解决高维问题，即大型特征空间；
解决小样本下机器学习问题；
能够处理非线性特征的相互作用；
无局部极小值问题；
无需依赖整个数据；
泛化能力比较强；

缺点：

会耗费大量的机器内存和运算时间；
当观测样本很多时，效率并不是很高；
对非线性问题没有通用解决方案，有时候很难找到一个合适的核函数；
对于核函数的高维映射解释力不强，尤其是径向基函数；
常规SVM只支持二分类；
对缺失数据敏感；

应用：文本分类、图像识别、主要二分类领域。

朴素贝叶斯

优点：

朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。
对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集，针对每个项目通常也只会有相对较少的特征数，并且对项目的训练和分类也仅仅是特征概率的数学运算而已；
对小规模的数据表现很好，能个处理多分类任务，适合增量式训练（即可以实时的对新增的样本进行训练）；
对缺失数据不太敏感，算法也比较简单，常用于文本分类；
朴素贝叶斯对结果解释容易理解；

缺点：

需要计算先验概率；
分类决策存在错误率；
对输入数据的表达形式很敏感；
由于使用了样本属性独立性的假设，所以如果样本属性有关联时其效果不好；

应用：

欺诈检测中使用较多
一封电子邮件是否是垃圾邮件
一篇文章应该分到科技、政治，还是体育类
一段文字表达的是积极的情绪还是消极的情绪
人脸识别

决策树

优点：

决策树易于理解和解释，可以可视化分析，容易提取出规则；
可以同时处理标称型和数值型数据；
比较适合处理有缺失属性的样本；
具有一定的特征选择能力，能够处理不相关的特征；
测试数据集时，运行速度比较快；
在相对短的时间内能够对大型数据源做出可行且效果良好的结果；

缺点：

属于弱分类器，且容易过拟合，可用 bagging 的方式减小方差（如随机森林），boosting 的方式减少偏差（如 GBDT、xgboost）；
对缺失数据处理比较困难；
容易忽略数据集中属性的相互关联；
对于那些各类别样本数量不一致的数据，在决策树中，进行属性划分时，不同的判定准则会带来不同的属性选择倾向；信息增益准则对可取数目较多的属性有所偏好（典型代表 ID3 算法），而增益率准则（CART）则对可取数目较少的属性有所偏好，但 CART 进行属性划分时候不再简单地直接利用增益率尽心划分，而是采用一种启发式规则）（只要是使用了信息增益，都有这个缺点，如 RF）；
ID3 算法计算信息增益时结果偏向数值比较多的特征；

改进：

对决策树进行剪枝。可以采用交叉验证法和加入正则化的方法。
使用基于决策树的集成算法（如随机森林），可以解决过拟合的问题；

应用：

企业管理实践
企业投资决策
由于决策树很好的分析能力，在决策过程应用较多

随机森林

优点：

随机森林具有防止过拟合能力，精度比大多数单个算法要好；
随机森林分类器可以处理缺失值；
具有一定的特征选择能力，由于有袋外数据(OOB)，可以在模型生成过程中取得真实误差的无偏估计，且不损失训练数据量在训练过程中，能够检测到特征间的互相影响，且可以得出特征的重要性，具有一定参考意义；
每棵树可以独立、同时生成，容易做成并行化方法；

缺点：