机器学习西瓜书Chapter1&2 绪论与模型评估

ICEAGE117

已于 2022-07-19 10:29:37 修改

阅读量231

点赞数 1

文章标签：学习大数据

于 2022-07-12 23:37:36 首次发布

本文链接：https://blog.csdn.net/weixin_44102147/article/details/125749956

版权

Chapter1 绪论

1.2基本术语

1.机器学习中的重要术语，包括：

属性相关：属性/特征、属性值、属性空间、特征向量
标签相关：标记、标记空间、输出空间
样本相关：样例、样本空间
数据划分：训练集、测试集、验证集

2.机器学习中的两大问题：

分类，模型结果是离散值
回归，模型结果是连续值

1.4归纳偏好

1.归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好，比如偏好简单的模型，或偏好复杂的模型。若无偏好，否则无法产生确定的学习结果

学习算法——基于归纳偏好产生——>模型

常用的原则有：

奥卡姆剃刀：若有多个假设与观察一致，则选最简单的那个（但往往很难定义什么“更简单的”）

2.没有免费的午餐定理：总误差与学习算法无关，无论一个算法多聪明，另一个算法多笨拙，其期望性能相同。即对于任意两个算法都有：

重要前提：所有问题出现的机会相同，或所有问题同等重要。但在实际中，我们只关注正在试图解决的问题，因此所有模型在特定问题下并不是性能都相同（只是所有问题下的期望相同），模型优化还是有意义的

Chapter2 模型评估与选择

2.1经验误差与过拟合

1.误差：模型的预测输出与样本真实输出间的差异。两种误差：

训练误差/经验误差：学习器在训练集上的误差
泛化误差：学习器在新样本上的误差

2.过拟合：学习器把训练样本学得太好，将训练样本自身的一些特点当做所有潜在样本都具有的一般性质，导致泛化性能下降。过拟合是无法避免的，只能缓解

原因：学习能力过于强大
解决方法：L1和L2正则化、增大数据集、early stopping、dropout、决策树剪枝、

3.欠拟合：学习器把训练样本学得太差，训练样本的一般性质都没学到

原因：学习能力低下
解决方法：提高学习器学习能力，比如在决策树中增加分支，在神经网络中增加训练轮数

2.2评估方法

将样本D划分训练集S和测试集T的方法：

1.留出法：随机选取x%的样本作为训练集，1-x%的样本作为测试集。要注意：

要分层采样
由于一次划分是随机的，结果不够稳定可靠，因此要多次划分取结果的平均
若S过大，则虽结果趋向于用D训练的模型，但由于T过小评估结果不够稳定准确；若S过小，则与用D训练出的模型差异较大，降低了评估模型的保真性。没有完美的解决办法，一般选用2/3-4/5的数据作训练集，剩余做测试集

2.交叉验证法/k折交叉验证法：将数据随机划分为k份（每份里也要注意分层采样），分别令k-1份为训练集，剩下的1份为测试集，实验k次取平均。要注意：

k通常可取5、10、20
一次划分要实验k次，由于随机选取问题通常不会只划分一次，因此有10次10折交叉验证
特殊情况留一法，k取m，即每个样本单独成1份，用m-1个样本训练，用剩下1个样本测试。优点：训练结果与用全集D训练的结果很相似，缺点：要训练m次，计算开销大

3.自助法：每次独立地从m个样本从选取1个样本到集合中（放回），共选取m次，获得样本作为训练集（集合中会有重复的样本），选取没在训练集中出现的样本作为测试集，测试集的比例大约为36.8%

适用场景：数据集较小、难以有效划分训练/测试集的场景
优点：实际评估的模型与期望评估的模型都使用m个训练样本，同时仍有1/3、没在训练集中出现的样本用于测试；可从初始数据集中产生多个不同的训练集，有助于集成学习
缺点：生成的训练集改变了原始数据的分布，带来估计误差

4.三种方法使用范围的总结：

样本数据多的场景：留出法和交叉验证法
样本数据不足的场景：自助法

5.调参：由于算法的很多参数是在实数内取值，因此可选用范围+步长的方法进行参数选择，例如从[0,0.2]以0.05为步长选取参数

2.3性能度量

1.回归任务中常用的度量：均方误差（MSE）

2.分类任务中常用的度量：

（1）错误率与精度

错误率：假设判断错误的样本e个，样本总体m个，则错误率为e/m

精度：1-错误率=1-e/m

（2）查准率、查全率与PR曲线

查准率P：判断为正例的样本中，真正正例的比例

查全率R：真正为正例的样本中，判断为正例的比例

查准率与查全率不可兼得，两者呈反比关系

将样本以预测为正例的概率由高到低排列，从0个正例开始依次将样本划分为正例，接着以查全率为横轴，查准率为纵轴，绘制出PR曲线

根据PR曲线判断学习器优劣的方法：

包含关系，若曲线A包含曲线C，则曲线A对应的学习器由于曲线C；若两曲线交叉，则无法判断
平衡点，若曲线A的平衡点数值大于曲线B，则曲线A对应的学习器优于曲线B
曲线下面积，若曲线A曲线下面积大于曲线B，则权限A对应的学习器优于曲线B
F1度量，F1是查全率和查准率的调和平均；F1越大，则学习器效果越好

Fβ度量， Fβ是查全率和查准率的加权调和平均，β反映查全率相对于查准率的偏好程度。若β=1，则一样重要；若β>1，则查全率更重要；若β<1，则查准率更重要

多个混淆矩阵如何取平均：

每个混淆矩阵先算一个P、R，最后算平均，称为宏查全率、宏查准率、宏F1

先算所有混淆矩阵的平均真正例、假反例、假正例、真反例，最后算P、R，称为微查全率、微查准率、微F1

（3）真正例率、假正例率和ROC曲线

真正例率：真正例/真实情况为正例的比例

假正例率：假正例/真实情况为反例的比例

分类阈值：以该阈值为界，大于该值的划为正例，小于该值的划为反例

将样本以预测为正例的概率由高到低排列，从0个正例开始依次将样本划分为正例，接着以假正例率为横轴，真正例率为纵轴，绘制出ROC曲线。ROC曲线用于衡量学习器的泛化能力。其中，对角线为随机学习器的效果

用ROC曲线判断算法的优劣：

包含关系，如曲线A包含曲线B，则曲线A对应的学习器优于曲线B
曲线下面积，即AUC

曲线上面积，即l_rank，l_rank+AUC=1

（4）代价敏感错误率与代价曲线

代价敏感错误率：不仅考虑判断错误的次数，还考虑不同判断错误的不同损失

代价曲线：ROC曲线不能衡量学习器的预期总体代价，因此以正例概率代价为横轴，归一化代价为纵轴，绘制代价曲线

ICEAGE117

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫