且听风吟iii-CSDN博客

原创西瓜书4.1+4.2

这一节主要讲了决策树，核心在于如何进一步划分出纯度更高的类。引用了信息论里的两类指标。一是以ID3为代表的算法使用的信息熵（本质是衡量信息纯度）与信息增益（表示确定某一随机变量对确定另外一个随机变量带来的贡献）。公式分别如下：这类指标偏好取值数目多的属性。但是对于取值过多的属性容易产生过拟合。二是以C4.5为代表的算法使用的基尼系数。其本质在于随机抽取两个样本，其类别不一致的概率总和。公式如下这类指标偏好取值数目少的属性。...

2021-11-26 00:38:43 877

原创西瓜书第三章线性模型笔记

2021-11-23 01:06:19 150

原创西瓜书第一~二章学习笔记

一、收获什么是机器学习，可以理解为数据通过学习算法计算得到学习模型。因而影响机器学习的三要素是数据、算法、算力。关于数据，它被分为训练集，验证集，测试集，都应该与样本数据保持独立同分布，这样才能避免额外偏差的产生。我们用训练集训练模型，在测试集上判别模型泛华效果，基于验证集上的性能来进行模型选择和调参。由于过拟合与泛化能力不可调和的矛盾，产生了很多种优劣势不同的划分数据集的方法，常见的有k折交叉验证法，留一法，自助法。关于学习模型，他是机器对数据潜在规律的一种解读，被称为假设，相对于数据客观存在

2021-11-17 01:05:58 826

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 西瓜书4.1+4.2

原创 西瓜书第三章线性模型笔记

原创 西瓜书第一~二章学习笔记

空空如也

空空如也

原创西瓜书4.1+4.2

原创西瓜书第三章线性模型笔记

原创西瓜书第一~二章学习笔记