Day2 周志华《机器学习》读书笔记之模型评估

最新推荐文章于 2022-01-17 21:29:53 发布

脑机接口研习社

最新推荐文章于 2022-01-17 21:29:53 发布

阅读量305

点赞数

分类专栏：机器学习与脑机接口文章标签： python 机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44099023/article/details/116119849

版权

在这里插入图片描述

公众号关注：脑机接口研习社
关注脑机接口最新进展

系列文章目录

当脑机接口遇上机器学习：周志华《机器学习》读书笔记之绪论

文章目录

系列文章目录
前言
一、经验误差与过拟合
二、模型的评估：如何得到测试集和训练集？
三、模型的评估：性能度量
四、思考：如何与脑机接口结合

前言

脑机接口研习社将推出一系列文章，每篇文章将分成两个部分的内容，第一部分是记录小编读书过程的学习笔记，第二部分是思考每个章节的内容可以如何应用在脑机接口领域。

周志华老师的《机器学习》（西瓜书）是机器学习领域的经典入门教材之一，但这不仅仅只是一本入门书。书的原话：“就算是领域内的专家来看这本书，依旧是会有所收获的，因此这本书是需要精读的，一遍肯定是不够的”。

在这里插入图片描述

公众号每周更新两个章节的内容，大家可以和我们一起读书打卡~

Day 2

提示：以下是本篇文章正文内容，下面案例可供参考

一、经验误差与过拟合

误差error=样本的真实输出-学习器的实际预测输出。

学习器在训练集上的误差是训练误差，在新样本上的误差为泛化误差。我们希望泛化误差达到最小。

训练误差过大和过小都不好，过小的话会导致过拟合；过大会导致欠拟合。

Note：

机器学习中的过拟合与N/NP问题：

机器学习面临的问题通常是NP-hard甚至更难，而有效的学习算法必然是在多项式时间内运行完成，若可彻底避免过拟合，则通过经验误差最小化就能获最优解，这就意味着我们构造性地证明了“P=NP”，因此，只要相信“P≠NP”，过拟合就不可避免。

P/NP的定义：
P集合：在多项式时间内可以找出解的决策性问题的集合。
NP集合：在多项式时间内可以验证解是否正确的决策性问题的集合。

直白地讲，
P集合：可以很快求解的问题。
NP集合：可以很快验证给定答案是否正确的问题。
NP-hard集合：至少比任何NP问题一样难的问题。
NP-complete集合：同时满足两个条件：（1）该问题是一个NP问题；（2）所有NP问题可以归约为该问题。

二、模型的评估：如何得到测试集和训练集？

模型选择：选用哪一个学习算法，使用哪一种参数配置，使得泛化误差达到最小。

如何进行模型评估和选择？

通过实验测试来对学习器的泛化误差进行评估，从而进行选择。

所以，需要一个测试集来测试学习器对新样本的判别能力，然后以测试集上的测试误差作为泛化误差的近似。

测试集应尽可能与训练集互斥。达到举一反三的目的。

在数据集中得到测试集和训练集的三个方法：

1. 留出法（hold-out）

直接将数据集D划分为两个互斥的集合——S（训练集）和T（测试集），

在S上训练出模型后，用T来评估测试误差，作为对泛化误差的估计。

注意：

S和T的划分要尽可能保持数据分布的一致性。通常采用分层采样的方法（stratified sam

最低0.47元/天解锁文章

脑机接口研习社

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。