机器学习笔记（1）

最新推荐文章于 2022-02-13 18:35:49 发布

Lyndon_zheng

最新推荐文章于 2022-02-13 18:35:49 发布

阅读量1.1k

点赞数

分类专栏： Machine_learning 文章标签： algorithm svm 机器学习模式识别数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zx10212029/article/details/45167933

版权

本文介绍了机器学习的基础知识，包括使用信息增益率选择属性的决策树构造，CART算法的特点与剪枝，K近邻算法的工作原理，以及聚类方法如K-means的流程。同时讨论了弱学习与强学习的概念，以及它们在实际应用中的误差率和效率。

摘要由CSDN通过智能技术生成

1、机器学习的主要任务是通过样本的特征进行分类，一般有两套独立的样本集：训练数据和测试数据。其中特征和属性通常是训练集样本的列，是独立测得结果，而测试数据集在测试阶段只输入特征，通过分类器来进行类别的标记，并与真值比较，得到分类器的精度。

2、机器学习跟模式识别、统计学习、数据挖掘、计算机视觉、语音识别和自然语言处理等领域有深刻的联系。从研究内容来说，机器学习与模式识别、统计学习、数据挖掘有很大的类似点，同时，机器学习与其他领域的处理技术结合，形成了计算机视觉、语音识别、自然语言处理等交叉学科。

3、机器学习、数据挖掘经典算法归类：

（1）、分类算法

分类算法是机器学习的主要内容，即通过对已知类别的样本进行学习，得到一种分类器，然后对未知类别的测试数据进行分类处理。

#1. C4.5算法

是机器学习中的一种分类决策树算法，是基于ID3算法进行改进后的一种重要算法。改进之处主要有：

用信息增益率来选择属性。ID3使用的是熵的变化值，而C4.5运用的是信息增益率；
在决策树构造过程中进行剪枝，避免某些具有很少元素的结点使构造出的决策树Overfitting；
对非离散数据也能处理；
能够对不完整数据进行处理。

#2. CART（Classification and Regression Tree）算法

分类与回归树（CART）也是典型的非参数分类和回归方法，与ID3算法和C4.5算法类似，与他们的不同之处在于：

CART分类最后形成的树是一个二叉树，每个节点会分为左孩子和右孩子两个节点，所以CART算法在所选定的属性中又要划分出最佳的属性划分值，即在选定了的划分属性中确定按照拿个值作为二元划分；
CART算法对于属性的值采用的是基于Gini系数值的方式做比较；
CART算法在把数据进行分类后，为防止模型的过拟合，会对树进行一个剪枝，即除去不必要的多余分枝

#3. KNN(K-Nearest Neighbor algorithm)算法

K近邻算法与K-means聚类算法在思想上比较类似。目前理解来看，K近邻训练的是带标记的样本，也就是监督学习，而K-means聚类算法则是对无标记物体进行聚类，也就是无监督学习。简单来都是物以类聚人以群分，即找最相似特征的样本入伙。主要思路为：如果一个样本与特征空间中的K个训练样本最相似，而这K个样本中的大多数属于某个类别，则该测试样本也属于该类别。下面用维基百科上的一幅图来简单说明问题：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。