自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 西瓜书4.1+4.2

这一节主要讲了决策树,核心在于如何进一步划分出纯度更高的类。引用了信息论里的两类指标。一是以ID3为代表的算法使用的信息熵(本质是衡量信息纯度)与信息增益(表示确定某一随机变量对确定另外一个随机变量带来的贡献)。公式分别如下:这类指标偏好取值数目多的属性。但是对于取值过多的属性容易产生过拟合。二是以C4.5为代表的算法使用的基尼系数。其本质在于随机抽取两个样本,其类别不一致的概率总和。公式如下这类指标偏好取值数目少的属性。...

2021-11-26 00:38:43 877

原创 西瓜书第三章线性模型笔记

2021-11-23 01:06:19 150

原创 西瓜书第一~二章学习笔记

一、收获什么是机器学习,可以理解为数据通过学习算法计算得到学习模型。因而影响机器学习的三要素是数据、算法、算力。关于数据,它被分为训练集,验证集,测试集,都应该与样本数据保持独立同分布,这样才能避免额外偏差的产生。我们用训练集训练模型,在测试集上判别模型泛华效果,基于验证集上的性能来进行模型选择和调参。由于过拟合与泛化能力不可调和的矛盾,产生了很多种优劣势不同的划分数据集的方法,常见的有k折交叉验证法,留一法,自助法。关于学习模型,他是机器对数据潜在规律的一种解读,被称为假设,相对于数据客观存在

2021-11-17 01:05:58 826

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除