二、机器学习基础13(熵、信息增益、剪枝处理、SVM)

最新推荐文章于 2023-01-10 12:58:49 发布

满满myno

最新推荐文章于 2023-01-10 12:58:49 发布

阅读量284

点赞数 6

分类专栏：深度学习(上) 文章标签：机器学习深度学习 opencv 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53832681/article/details/124294402

版权

深度学习(上) 专栏收录该内容

46 篇文章 2 订阅

订阅专栏

熵：度量随机变量的不确定性。

信息增益

定义：以某特征划分数据集前后的熵的差值。
熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合 D 划分效果的好坏。

假设划分前样本集合D的熵为H(D) 。使用某个特征A划分数据集D，计算划分后的数据子集的熵为H(D|A)
则信息增益为：

注：在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展，因
此我们总是选择使得信息增益最大的特征来划分当前数据集 D。

信息增益比=惩罚参数 *信息增益

惩罚参数：数据集 D 以特征 A 作为随机变量的熵的倒数

剪枝处理

剪枝处理是决策树学习算法用来解决过拟合的一种办法。

剪枝的基本策略有预剪枝(prepruning)和后剪枝(postprunint)。

预剪枝：在决策树生成过程中，在每个节点划分前先估计其划分后的泛化性能，如果不能提升，则停止划分，将当前节点标记为叶结点。
后剪枝：生成决策树以后，再自下而上对非叶结点进行考察，若将此节点标记为叶结点可以带来泛化性能提升，则修改之。

支持向量机

SVM - Support Vector Machine。支持向量机，其含义是通过支持向量运算的分类器。其中
“机”的意思是机器，可以理解为分类器。

解决的问题：线性分类、非线性分类

超平面（hyperplane）、最大间隔超平面（maximum-margin hyperplane）、最大间隔分类器（maximum-margin classifier），支持向量机是一个二类分类器。

结合使用拉格朗日乘子法和 KKT 条件，以及核函数可以产生非线性分类器。

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
6
评论
二、机器学习基础13(熵、信息增益、剪枝处理、SVM)

熵：度量随机变量的不确定性。信息增益定义：以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合 D 划分效果的好坏。假设划分前样本集合D的熵为H(D)。使用某个特征A划分数据集D，计算划分后的数据子集的熵为H(D|A)则信息增益为：注：在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展，因此我们总是选择使得信息增益最大的特征来划分当前数据集 D。..
复制链接

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

满满myno 非常感谢对我创作的支持，爱你呦

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。