西瓜书chapter1-2

yangtz23

于 2022-11-15 15:55:11 发布

阅读量233

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45432647/article/details/127855539

版权

chapter1

1.基本术语

样本（sample） $x_{i}$ ：某个瓜
样本的属性/特征（feature） $x_{ij}$ ：瓜的属性（大小、颜色……）
特征向量（feature vector）=一个样本 $x_{i}$ = $\left \{ x_{i1},x_{i2}... \right \}$
数据集（dataset）样本的集合 $D$ = $\left \{ x_{1},x_{2}... \right \}$
标记（label） $y_{i}$ ：对应某瓜给出的一个结论（分类）
训练集中的训练数据由训练样本构成。
训练输出的样例 $\left ( x_{i},y_{i} \right )$ ：某瓜 $x_{i}$ 是不是好瓜 $y_{i}$ .
验证集、训练集、测试集：{验证数据}+{训练集数据}=训练集，训练集+测试集=数据集

泛化能力：训练模型适用于非训练样本的能力，一般而言，训练样本越丰富，泛化能力越强
假设空间：不同特征所有可能的样本集合（三类特征，每类特征包含三种可能，则样本空间大小为3*3*3=27种），一般为有限集。
归纳偏好：对应于好瓜的判断，某种特征更为重要即为偏好。
过拟合：学习器在训练集上的表现极好，好到无法用于新样本
拟合：学习器在训练集上的表现极差，没训练好

奥卡姆剃刀原则：存在多个假设以观察一致，就选择最简单的那个。

2.学习任务的分类

监督学习：

代表为回归，训练数据有标记信息。

无监督学习：

代表为聚类，训练数据中没有标记信息

chapter2

1.学习器的性能指标：

经验误差/训练误差：学习器在训练集上的输出 $f\left ( x_{i} \right )$ 与样本的真实 $y_{i}$ 之间的差异

错误率=1-精度 $E = a/m$

训练集D中m个训练样本中输出 $f\left ( x_{i} \right )$ 与实际 $y_{i}$ 不一致的a个训练样本

真实情况	预测结果
真实情况	正例	反例
正例	TP (真正例)	FP (假正例)
反例	FN (假反例)	TN(真反例)

查准率P、查全率R、真正例率TPR、假正例率FPR

F1

泛化误差：学习器在测试集上的输出与样本的真实之间的差异

训练集或测试集合的选择：

留出法：将数据集划分为两个互斥的子集，分别为测试集和训练集，样例数量比例为2:1~4：1；多次划分，取多次结果的平均作为输出。
交叉验证法：将数据集划分为K个大小相近的互斥子集（按照分布分层抽样），每次选择K-1个子集训练，剩下的作为测试集。进行K轮，取每次结果的平均作为输出。“K折交叉验证”，当k=m(数据集中的样本数时），称为留一法。
自助法：随机采一个样采m次产生训练集（服从独立同分布），最终约有三分之一的样本始终未被选到过，可以作为测试集。一般在数据集较小时比较有效（改变了样本的分布）。

性能评价的指标：

对应于P、R作为学习器性能衡量指标时：

P-R图，分别为y,x坐标，当P=R时，称为BEP点（平衡点break-even point），此时可看做学习器的最佳性能体现。

对应TPR、NPR作为指标时：

ROC曲线：按照学习器的预测结果对样例排序，按照顺序一次将样本作为正例进行预测，每次计算TPR、NPR作为YX坐标

AUC（area under ROC curve）：样本数量较小时的ROC曲线下的面积，以面积大小作为性能优劣的指标。

代价敏感错误率与代价曲线：

非均等代价：例如阳性患者判断为阴性的代价要大于将阴性患者判断为阳性。

真实代价	预测类别
真实代价	0	1
0	0	cost01
1	cost10	0

$cost^{_{01}}> cost^{_{10}$

将非均等代价带入错误率，从而获得新的学习器期望总体代价。

比较检验的作用：通过比较检验，可以对学习器的性能进行度量

2.学习器性能的评价方法：

假设检验、交叉验证t检验、McNemar检验、Feriedman检验与Nemenyi后续检验

泛化误差：由预测结果与真实值的偏差和方差、噪声只和共同构成。偏差衡量了预测结果与真实结果之间的偏离程度；方差衡量了同样大小的训练集的选择造成的学习性能的影响；噪声某任务下学习算法所能达到的期望泛化误差下界，即任务的难度。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
西瓜书chapter1-2

西瓜书第一二章的知识点概览
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。