西瓜书笔记（1，2章）

最新推荐文章于 2023-02-28 11:57:05 发布

xhy.

最新推荐文章于 2023-02-28 11:57:05 发布

阅读量253

点赞数

分类专栏：机器学习文章标签：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43998014/article/details/122438765

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

西瓜书笔记（1，2章）

1.绪论

1.1 基本术语

预测的是离散值——“分类（classification）”；预测的是连续值——“回归（regression）”

泛化（generalization）——学得模型适用于新样本的能力

1.5 发展历程

机器学习是人工智能研究发展到一定阶段的必然产物。

推理期&知识期

二十世纪五十年代到七十年代初——人工智能研究处于推理期，认为只要能赋予机器逻辑推理的能力，机器就能拥有智能。（“逻辑推理家”程序证明数学定理）（但发现仅有逻辑不够，还需获得知识）五十年代中后期——Samuel跳棋程序，基于神经网络的“连接主义”已经出现（感知机）六七十年代，基于逻辑的“符号主义”（symbolism）学习技术发展。

二十世纪七十年代中期开始——“知识期”，专家系统问世，但局限于人把知识总结出来教给计算机而不是计算机自己学。

二十世纪八十年代以来——“从样例中学习” 一大主流是符号主义学习（e.g. 决策树）及基于逻辑的学习（归纳逻辑程序Inductive Logic Programme ，ILP）

学习期

1986 重新发明了著名的BP算法。

二十世纪九十年代中期——“统计学习”登场并迅速占据主流（SVM以及更一般的核方法）

二十一世纪如今——连接主义学习卷土重来，“深度学习”浪潮（模型复杂度高，调参好效果就好，缺乏严格的理论基础，但显著降低机器学习应用者的门槛）

2.模型评估与选择

2.2 评估方法

留出法hold-out

直接将数据集划分成两个互斥的集合，其中一个作为训练集，另一个作为测试集
交叉验证法cross validation

先将数据集划分为k个大小相似的互斥子集，再将k-1个子集的并集作为训练集，余下的子集作为测试集。这样就获得了k组训练/测试集，从而可进行k次训练，将k次结果的均值作为返回值
自助法

在数据集较小、难以有效划分训练/测试集的时候很有用。但改变了初识数据集的分布，会引入估计偏差。

给定m个样本的数据集D，对它进行采样产生数据集D’（每次随机从D中挑选一个样本通过拷贝放入D‘中，然后再将该样本放回。重复进行m次后，就得到了包含m个样本的数据集D’）

2.3 性能度量

查准率和查全率

在这里插入图片描述

若一个学习器的 P-R 曲线被另一个学习器的曲线完全包住，则可断言后者的性能优于前者。

“平衡点”（Break-Event Point，简称BEP）它是“查准率=查全率”时的取值。

F1度量：

在这里插入图片描述

ROC与AUC

ROC全称是“受试者工作特征”（Receiver Operating Characteristic）曲线

ROC 曲线的纵轴是"真正例率" (True Positive Rate ，简称 TPR) ，横轴是"假正例率" (False Positive Rate ，简称 FPR)

在这里插入图片描述

进行学习器的比较时，与P-R图相似，若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者；若两个学习器的ROC曲线发生交叉，则难以一般性地断言两者孰优孰劣，此时如果一定要进行比较，则较为合理的判据是比较ROC曲线下的面积，即AUC（Area Under ROC Curve）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。