研究问题中需要用到机器学习模型进行分类预测,所以把一些模型的优缺点、应用场景进行了总结。
`
预测值:离散值[ 分类 ] 、连续值[ 回归 ]
- 有监督学习
训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签;目标是学习一个函数。
[ 分类 ]:朴素贝叶斯(NB)、人工神经网络(ANN)、支持向量机(SVM)、随机森林(RF)、决策树 (DT)、k近邻(KNN)…
[ 回归 ]:线性回归、逻辑回归、神经网络…
- 半监督学习
使用从少量标记数据点所学的知识来标记未标记的数据点,训练集同时包含有标记样本数据和未标记样本数据,不需要人工干预,让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能。
- 无监督学习
[ 聚类 ]:不存在标注过的样本输出值,目标是推断一组数据样本中的内部结构.训练样本的标记信息未知,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。
[ 原型聚类 ]:此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用。通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解.采用不同的原型表示、不同的求解方式将产生不同的算法。
[ 层次聚类 ]:试图在不同层次对数据集进行划分,从而形成树形的聚类结构. 数据集的划分可采用"自底向上"的聚合策略,也可采用"自顶向下" 的分拆策略。
k-means聚类、主成分分析、自动编码器
`
模型优缺点及应用场景
1.监督型 - - 分类(离散值)
(1)垃圾邮件识别(2)文本情感褒贬识别(3)图像内容识别。
- 决策树(DT)【ID3、C4.5、CART】
优点:模拟人的直观决策规则、可以处理非线性特征、考虑了特征之间的相互作用。
缺点:

最低0.47元/天 解锁文章
17万+

被折叠的 条评论
为什么被折叠?



