Day2 周志华《机器学习》读书笔记之模型评估

在这里插入图片描述

公众号关注:脑机接口研习社
关注脑机接口最新进展

系列文章目录

当脑机接口遇上机器学习:周志华《机器学习》读书笔记之绪论



前言

脑机接口研习社将推出一系列文章,每篇文章将分成两个部分的内容,第一部分是记录小编读书过程的学习笔记第二部分是思考每个章节的内容可以如何应用在脑机接口领域。

周志华老师的《机器学习》(西瓜书)是机器学习领域的经典入门教材之一,但这不仅仅只是一本入门书。书的原话:“就算是领域内的专家来看这本书,依旧是会有所收获的,因此这本书是需要精读的,一遍肯定是不够的”。

在这里插入图片描述

公众号每周更新两个章节的内容,大家可以和我们一起读书打卡~

Day 2


提示:以下是本篇文章正文内容,下面案例可供参考

一、经验误差与过拟合

误差error=样本的真实输出-学习器的实际预测输出。

学习器在训练集上的误差是训练误差,在新样本上的误差为泛化误差。我们希望泛化误差达到最小。

训练误差过大和过小都不好,过小的话会导致过拟合;过大会导致欠拟合。

Note:

机器学习中的过拟合与N/NP问题:

机器学习面临的问题通常是NP-hard甚至更难,而有效的学习算法必然是在多项式时间内运行完成,若可彻底避免过拟合,则通过经验误差最小化就能获最优解,这就意味着我们构造性地证明了“P=NP”,因此,只要相信“P≠NP”,过拟合就不可避免。

P/NP的定义:
P集合:在多项式时间内可以找出解的决策性问题的集合。
NP集合:在多项式时间内可以验证解是否正确的决策性问题的集合。

直白地讲,
P集合:可以很快求解的问题。
NP集合:可以很快验证给定答案是否正确的问题。
NP-hard集合:至少比任何NP问题一样难的问题。
NP-complete集合:同时满足两个条件:(1)该问题是一个NP问题;(2)所有NP问题可以归约为该问题。

二、模型的评估:如何得到测试集和训练集?

模型选择:选用哪一个学习算法,使用哪一种参数配置,使得泛化误差达到最小。

如何进行模型评估和选择?

通过实验测试来对学习器的泛化误差进行评估,从而进行选择。

所以,需要一个测试集来测试学习器对新样本的判别能力,然后以测试集上的测试误差作为泛化误差的近似。

测试集应尽可能与训练集互斥。达到举一反三的目的。

在数据集中得到测试集和训练集的三个方法:

1. 留出法(hold-out)

直接将数据集D划分为两个互斥的集合——S(训练集)和T(测试集),

在S上训练出模型后,用T来评估测试误差,作为对泛化误差的估计。

注意:

  • S和T的划分要尽可能保持数据分布的一致性。通常采用分层采样的方法(stratified sam
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值