西瓜书
文章平均质量分 70
HoraceO
everyone is geniusฅ՞•ﻌ•՞ฅ
展开
-
西瓜书第六章的拓展学习
SVM. 优缺点 优点 有严格的数学理论支持,可解释性强,不依靠统计方法,从而简化了通常的分类和回归问题; 能找出对任务至关重要的关键样本(即:支持向量); 采用核技巧之后,可以处理非线性分类/回归任务; 最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。 缺点 训练时间长。当采用 SMO 算法时,由于每次都需要挑选一对参数,因此时间复杂度为 [n2n^2n2] ,其中 N 为训练样本的数量; 当采用核技巧时,如果需要存储核矩阵原创 2021-07-29 22:44:42 · 94 阅读 · 0 评论 -
西瓜书第五章拓展学习
卷积定义 从拉丁语convolvere来看,“to convolve”意味着一起滚动。 出于数学目的,卷积是测量两个函数重叠程度的积分。 将卷积视为通过将两个函数相乘来混合两个函数的方法。 卷积网络将图像视为很多层卷; 比如三维物体,而不是仅通过宽度和高度来测量的平面画布。 这是因为数字彩色图像具有红 - 蓝 - 绿(RGB)编码,混合这三种颜色以产生人类感知的色谱。 卷积网络将这些图像输入为三个独立的颜色通道,一个层叠在另一个之上。 因此,卷积网络接收一个普通彩色图像,就像一个矩形盒子,其宽度和高度由沿着原创 2021-07-25 22:09:36 · 97 阅读 · 0 评论 -
西瓜书第四章
组队打卡 拓展学习 根据西瓜书第四章的拓展 1. ID3 ID3 算法是建立在奥卡姆剃刀的基础上:越是小型的决策树越优于大的决策树。 1.1 思想 从信息论的知识中我们知道:信息熵越大,从而样本纯度越低。ID3 算法的核心思想就是以信息增益来度量特征选择,选择信息增益最大的特征进行分裂。算法采用自顶向下的贪婪搜索遍历可能的决策树空间(C4.5 也是贪婪搜索)。 其大致步骤为: 初始化特征集合和数据集合; 计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当前决策节点; 更新数据集合和特征集合原创 2021-07-22 23:46:29 · 187 阅读 · 1 评论 -
西瓜书:第三章线性模型
一、线性回归 线性回归的基本思想是采用对输入样例各个特征进行线性加权的方式得到预测的输出,并将预测的输出和真实值的均方误差最小化。1)如果输入样例只有一个特征,那这个过程就是用一条直线去拟合平面直角坐标系上的点; 2)如果有两个特征,表现在平面直角坐标系上就是用一条直线将用不同标记(如XX和OO)区分的输入样例分割开来;3)如果有两个以上特征,那就会映射到高维空间,用超平面来分割。 对于离散属性,若属性值间存在“序”关系,则可以通过连续化将其转换成连续值;若不存在“序”关系,则有k个属性值,就转换为k维向量原创 2021-07-20 01:00:02 · 165 阅读 · 0 评论 -
2021-07-14
关于其中几个问题的思考: 根据南瓜书作者的建议,一二章简单看下。 西瓜书第1章和第2章主要是讲一些基本概念和术语,以下知识点在没有学过后面章节的具体机器学习算法之前较难理解,下面我将其划出来:第1章:【1.4-归纳偏好】可以跳过第2章:【2.3.3-ROC与AUC】及其以后的都可以跳过 1 能不能只要训练集和测试集,不要验证集呢? 验证集的作用在于模拟测试集,而测试集的最大特点就是「未知」,即在训练过程中是见不到的。正因为验证集和测试集在训练过程中都是未知的,你才可以说,「如果你的超参数适用于验证集,那原创 2021-07-14 00:44:02 · 203 阅读 · 0 评论