机器学习模型总结

研究问题中需要用到机器学习模型进行分类预测,所以把一些模型的优缺点、应用场景进行了总结。
`
预测值:离散值[ 分类 ] 、连续值[ 回归 ]

  • 有监督学习

训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签;目标是学习一个函数。

[ 分类 ]:朴素贝叶斯(NB)、人工神经网络(ANN)、支持向量机(SVM)、随机森林(RF)、决策树 (DT)、k近邻(KNN)…

[ 回归 ]:线性回归、逻辑回归、神经网络…

  • 半监督学习

使用从少量标记数据点所学的知识来标记未标记的数据点,训练集同时包含有标记样本数据和未标记样本数据,不需要人工干预,让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能。

  • 无监督学习

[ 聚类 ]:不存在标注过的样本输出值,目标是推断一组数据样本中的内部结构.训练样本的标记信息未知,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。

[ 原型聚类 ]:此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用。通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解.采用不同的原型表示、不同的求解方式将产生不同的算法。

[ 层次聚类 ]:试图在不同层次对数据集进行划分,从而形成树形的聚类结构. 数据集的划分可采用"自底向上"的聚合策略,也可采用"自顶向下" 的分拆策略。

k-means聚类、主成分分析、自动编码器
`

模型优缺点及应用场景

1.监督型 - - 分类(离散值)
(1)垃圾邮件识别(2)文本情感褒贬识别(3)图像内容识别。

  • 决策树(DT)【ID3、C4.5、CART】

优点:模拟人的直观决策规则、可以处理非线性特征、考虑了特征之间的相互作用。

缺点:可能陷于局部最小值中、决策树处理缺失数据时的困难、过度拟合问题的出现、忽略数据集中属性之间的相关性。

应用场景:银行信用自动评估系统、主要应用于决策过程。

  • 随机森林(RF)

优点:泛化性能较好,可以有效的降低模型的方差、处理高维度(特征多)数据、平衡误差。

缺点:在某些噪音较大的分类或回归问题上会过拟合 。

应用场景:市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性、银行,股票市场,医药和电子商务。

  • k-nearest neighbor(KNN)

优点:算法简单,易实现;重新训练的代价较低(类别体系的变化和训练集的变化,在Web环境和电子商务应用中是很常见的),计算时间和空间线性于训练集的规模(在一些场合不算太大)。

缺点:类别评分不是规格化的(不像概率评分)。输出的可解释性不强,例如决策树的可解释性较强。计算量较大,内存使用高,不适用于高维特征空间。

应用场景:人脸识别,适用于样本容量比较大的类域的自动分类、适用于类域的交叉或重叠较多的待分样本集

  • 支持向量机(SVM)

优点:数据维度比样本数量大的情况下仍然有效、解决小样本情况下的机器学习问题、提高泛化性能、解决高维问题和非线性问题、避免神经网络结构选择和局部极小点问题。

缺点:不直接提供概率估计、对缺失数据敏感、对非线性问题没有通用解决方案。

应用场景:文本分类、图像识别、主要二分类领域。

  • 朴素贝叶斯(NB)

优点:朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。快速,易于训练。

缺点: NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。需要知道先验概率。分类决策存在错误率。

应用场景:文本分类、欺诈检测

  • 反向传播神经网络(BP)

优点: 具有极强的非线性映射能力和优化计算能力、对外界输入样本有很强的识别与分类能力、有很好的逼近、较强的泛化能力和较好的容错性。

缺点:收敛速度慢、目标函数存在局部极小点、难以确定隐层和隐层结点的数目。

应用场景:(1)函数逼近:用输入向量和相应的输出向量训练一个网络逼近一个函数;(2)模式识别:用一个待定的输出向量将它与输入向量联系起来;(3)分类:把输入向量所定义的合适方式进行分类;(4)数据压缩:减少输出向量维数以便于传输或存储。

  • 多层感知机(MLP)(最基础的人工神经网络)

优点:学习任意非线性函数

缺点:丢失图像的空间特征;随着图像尺寸的增大,可训练参数的数量会急剧增加;无法捕获处理序列数据所需的输入数据中的顺序信息。

应用场景:Tabular data 列表数据、Image data 图像数据、Text data 文本数据。

  • 人工神经网络(ANN)

优点:分类的准确度高,并行分布处理能力强、对噪声神经有较强的鲁棒性和容错能力、能充分逼近复杂的非线性关系、算法可以快速调整,适应新的问题

缺点: 神经网络需要大量的参数、不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长,甚至可能达不到学习的目的。

应用场景:处理信息–研究动物和机器的行为与控制;模式识别、预测、数据压缩。

  • 卷积神经网络(CNN)

优点:自动学习过滤器:有助于从输入数据中提取正确的相关特征。

缺点:没有记忆功能、特征理解能力差、忽略局部与整体之间的关联性。

应用场景:图像和视频处理、模式分类,物体检测和物体识别、自然语言处理。

  • 循环神经网络(RNN)

优点:捕捉数据中出现的顺序信息,例如,预测时文本中单词之间的依赖关系、跨不同的时间步长共享参数;

缺点:梯度消失和爆炸问题

应用场景:语言模型和文本生成研究、机器翻译、语音识别、图像描述生成。

  • 长短期记忆(LSTM)

优点:一种特殊的RNN,实现状态记忆传送;解决长序列训练过程中梯度消失和梯度爆炸的问题。

应用场景:股票价格

2.监督型 - - 回归(连续值)
预测票房、价格、天气

  • 线性回归(LR)【决策树DT】

优点:实现效率较高;很好处理线性特征。

缺点:当特征空间很大时,逻辑回归的性能不是很好。不能很好地处理大量多类特征。对于非线性特征,需要进行转换。

应用场景:适合需要得到一个分类概率的场景。

  • 非线性回归【逻辑回归(LR)】

优点:解决二分类问题,分类时计算量小,实现简单。

缺点:特征空间大时,逻辑回归的性能欠缺、容易欠拟合,分类精度不高。

应用场景:适用于根据分类概率排名的领域(搜索排名)

3.非监督型
(1)相似用户发现/挖掘(2)新闻聚类

  • K-mean聚类

优点:让数据变得有意义

应用场景:人脸分类

  • hierachical clustering

应用场景:人脸噪音排除

  • 自组织映射网络(SOM)

应用场景:聚类、高维数据可视化、图像分割。

  • 主成分分析(PCA)

优点:降维方法,分析特征值的权重大小 、可处理大规模数据集,无需在数据上进行假设。

缺点:不是适用于非线性数据、难以理解结果的意义

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值