机器学习模型总结

最新推荐文章于 2024-07-25 12:32:58 发布

Ume-M

最新推荐文章于 2024-07-25 12:32:58 发布

阅读量1.6k

点赞数 1

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44945845/article/details/124143500

版权

研究问题中需要用到机器学习模型进行分类预测，所以把一些模型的优缺点、应用场景进行了总结。
`
预测值：离散值[ 分类 ] 、连续值[ 回归 ]

有监督学习

训练数据既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签;目标是学习一个函数。

[ 分类 ]：朴素贝叶斯(NB)、人工神经网络(ANN)、支持向量机(SVM)、随机森林(RF)、决策树 (DT)、k近邻（KNN）…

[ 回归 ]：线性回归、逻辑回归、神经网络…

半监督学习

使用从少量标记数据点所学的知识来标记未标记的数据点,训练集同时包含有标记样本数据和未标记样本数据，不需要人工干预，让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能。

无监督学习

[ 聚类 ]：不存在标注过的样本输出值，目标是推断一组数据样本中的内部结构.训练样本的标记信息未知，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。

[ 原型聚类 ]：此类算法假设聚类结构能通过一组原型刻画，在现实聚类任务中极为常用。通常情形下，算法先对原型进行初始化，然后对原型进行迭代更新求解.采用不同的原型表示、不同的求解方式将产生不同的算法。

[ 层次聚类 ]：试图在不同层次对数据集进行划分，从而形成树形的聚类结构. 数据集的划分可采用"自底向上"的聚合策略，也可采用"自顶向下" 的分拆策略。

k-means聚类、主成分分析、自动编码器
`

模型优缺点及应用场景

1.监督型 - - 分类（离散值）
（1）垃圾邮件识别（2）文本情感褒贬识别（3）图像内容识别。

决策树（DT）【ID3、C4.5、CART】

优点：模拟人的直观决策规则、可以处理非线性特征、考虑了特征之间的相互作用。

缺点：可能陷于局部最小值中、决策树处理缺失数据时的困难、过度拟合问题的出现、忽略数据集中属性之间的相关性。

应用场景：银行信用自动评估系统、主要应用于决策过程。

随机森林（RF）

优点：泛化性能较好，可以有效的降低模型的方差、处理高维度（特征多）数据、平衡误差。

缺点：在某些噪音较大的分类或回归问题上会过拟合。

应用场景：市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性、银行，股票市场，医药和电子商务。

k-nearest neighbor（KNN）

优点：算法简单，易实现；重新训练的代价较低（类别体系的变化和训练集的变化，在Web环境和电子商务应用中是很常见的），计算时间和空间线性于训练集的规模（在一些场合不算太大）。

缺点：类别评分不是规格化的（不像概率评分）。输出的可解释性不强，例如决策树的可解释性较强。计算量较大，内存使用高，不适用于高维特征空间。

应用场景：人脸识别，适用于样本容量比较大的类域的自动分类、适用于类域的交叉或重叠较多的待分样本集

支持向量机（SVM）

优点：数据维度比样本数量大的情况下仍然有效、解决小样本情况下的机器学习问题、提高泛化性能、解决高维问题和非线性问题、避免神经网络结构选择和局部极小点问题。

缺点：不直接提供概率估计、对缺失数据敏感、对非线性问题没有通用解决方案。

应用场景：文本分类、图像识别、主要二分类领域。

朴素贝叶斯（NB）

优点：朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。快速，易于训练。

缺点： NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。需要知道先验概率。分类决策存在错误率。

应用场景：文本分类、欺诈检测

反向传播神经网络（BP）

优点：具有极强的非线性映射能力和优化计算能力、对外界输入样本有很强的识别与分类能力、有很好的逼近、较强的泛化能力和较好的容错性。

缺点：收敛速度慢、目标函数存在局部极小点、难以确定隐层和隐层结点的数目。

应用场景：（1）函数逼近：用输入向量和相应的输出向量训练一个网络逼近一个函数；（2）模式识别：用一个待定的输出向量将它与输入向量联系起来；（3）分类：把输入向量所定义的合适方式进行分类；（4）数据压缩：减少输出向量维数以便于传输或存储。

多层感知机（MLP）（最基础的人工神经网络）

优点：学习任意非线性函数

缺点：丢失图像的空间特征；随着图像尺寸的增大，可训练参数的数量会急剧增加；无法捕获处理序列数据所需的输入数据中的顺序信息。

应用场景：Tabular data 列表数据、Image data 图像数据、Text data 文本数据。

人工神经网络（ANN）

优点：分类的准确度高，并行分布处理能力强、对噪声神经有较强的鲁棒性和容错能力、能充分逼近复杂的非线性关系、算法可以快速调整，适应新的问题

缺点：神经网络需要大量的参数、不能观察之间的学习过程，输出结果难以解释，会影响到结果的可信度和可接受程度；学习时间过长,甚至可能达不到学习的目的。

应用场景：处理信息–研究动物和机器的行为与控制；模式识别、预测、数据压缩。

卷积神经网络（CNN）

优点：自动学习过滤器:有助于从输入数据中提取正确的相关特征。

缺点：没有记忆功能、特征理解能力差、忽略局部与整体之间的关联性。

应用场景：图像和视频处理、模式分类，物体检测和物体识别、自然语言处理。

循环神经网络(RNN)

优点：捕捉数据中出现的顺序信息，例如，预测时文本中单词之间的依赖关系、跨不同的时间步长共享参数；

缺点：梯度消失和爆炸问题

应用场景：语言模型和文本生成研究、机器翻译、语音识别、图像描述生成。

长短期记忆（LSTM）

优点：一种特殊的RNN，实现状态记忆传送；解决长序列训练过程中梯度消失和梯度爆炸的问题。

应用场景：股票价格

2.监督型 - - 回归（连续值）
预测票房、价格、天气

线性回归（LR）【决策树DT】

优点：实现效率较高；很好处理线性特征。

缺点：当特征空间很大时，逻辑回归的性能不是很好。不能很好地处理大量多类特征。对于非线性特征，需要进行转换。

应用场景：适合需要得到一个分类概率的场景。

非线性回归【逻辑回归（LR）】

优点：解决二分类问题，分类时计算量小，实现简单。

缺点：特征空间大时，逻辑回归的性能欠缺、容易欠拟合，分类精度不高。

应用场景：适用于根据分类概率排名的领域（搜索排名）

3.非监督型
（1）相似用户发现/挖掘（2）新闻聚类

K-mean聚类

优点：让数据变得有意义

应用场景：人脸分类

hierachical clustering

应用场景：人脸噪音排除

自组织映射网络（SOM）

应用场景：聚类、高维数据可视化、图像分割。

主成分分析(PCA)

优点：降维方法，分析特征值的权重大小、可处理大规模数据集，无需在数据上进行假设。

缺点：不是适用于非线性数据、难以理解结果的意义

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习模型总结

研究问题中需要用到机器学习模型进行分类预测，所以把一些模型的优缺点、应用场景进行了总结。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。