机器学习笔记(1)

本文介绍了机器学习的基础知识,包括使用信息增益率选择属性的决策树构造,CART算法的特点与剪枝,K近邻算法的工作原理,以及聚类方法如K-means的流程。同时讨论了弱学习与强学习的概念,以及它们在实际应用中的误差率和效率。
摘要由CSDN通过智能技术生成

1、机器学习的主要任务是通过样本的特征进行分类,一般有两套独立的样本集:训练数据和测试数据。其中特征和属性通常是训练集样本的列,是独立测得结果,而测试数据集在测试阶段只输入特征,通过分类器来进行类别的标记,并与真值比较,得到分类器的精度。

2、机器学习跟模式识别、统计学习、数据挖掘、计算机视觉、语音识别和自然语言处理等领域有深刻的联系。从研究内容来说,机器学习与模式识别、统计学习、数据挖掘有很大的类似点,同时,机器学习与其他领域的处理技术结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科。
3、机器学习、数据挖掘经典算法归类:
(1)、分类算法
分类算法是机器学习的主要内容,即通过对已知类别的样本进行学习,得到一种分类器,然后对未知类别的测试数据进行分类处理。
#1. C4.5算法
是机器学习中的一种分类决策树算法,是基于ID3算法进行改进后的一种重要算法。改进之处主要有:
  • 用信息增益率来选择属性。ID3使用的是熵的变化值,而C4.5运用的是信息增益率;
  • 在决策树构造过程中进行剪枝,避免某些具有很少元素的结点使构造出的决策树Overfitting;
  • 对非离散数据也能处理;
  • 能够对不完整数据进行处理。


#2.  CART(Classification and Regression Tree)算法
分类与回归树(CART)也是典型的非参数分类和回归方法,与ID3算法和C4.5算法类似,与他们的不同之处在于:
  • CART分类最后形成的树是一个二叉树,每个节点会分为左孩子和右孩子两个节点,所以CART算法在所选定的属性中又要划分出最佳的属性划分值,即在选定了的划分属性中确定按照拿个值作为二元划分;
  • CART算法对于属性的值采用的是基于Gini系数值的方式做比较;
  • CART算法在数据进行分类后,为防止模型的过拟合,会对树进行一个剪枝,即除去不必要的多余分枝

#3.  KNN(K-Nearest Neighbor algorithm)算法
K近邻算法与K-means聚类算法在思想上比较类似。 目前理解来看,K近邻训练的是带标记的样本,也就是监督学习,而K-means聚类算法则是对无标记物体进行聚类,也就是无监督学习。简单来都是物以类聚人以群分,即找最相似特征的样本入伙。主要思路为:如果一个样本与特征空间中的K个训练样本最相似,而这K个样本中的大多数属于某个类别,则该测试样本也属于该类别。下面用维基百科上的一幅图来简单说明问题:
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值