西瓜书笔记(1,2章)
1.绪论
1.1 基本术语
预测的是离散值——“分类(classification)”;预测的是连续值——“回归(regression)”
泛化(generalization)——学得模型适用于新样本的能力
1.5 发展历程
机器学习是人工智能研究发展到一定阶段的必然产物。
- 推理期&知识期
二十世纪五十年代到七十年代初——人工智能研究处于推理期,认为只要能赋予机器逻辑推理的能力,机器就能拥有智能。(“逻辑推理家”程序证明数学定理)(但发现仅有逻辑不够,还需获得知识)五十年代中后期——Samuel跳棋程序,基于神经网络的“连接主义”已经出现(感知机) 六七十年代,基于逻辑的“符号主义”(symbolism)学习技术发展。
二十世纪七十年代中期开始——“知识期”,专家系统问世,但局限于人把知识总结出来教给计算机而不是计算机自己学。
二十世纪八十年代以来——“从样例中学习” 一大主流是符号主义学习(e.g. 决策树)及基于逻辑的学习(归纳逻辑程序Inductive Logic Programme ,ILP)
-
学习期
1986 重新发明了著名的BP算法。
二十世纪九十年代中期——“统计学习”登场并迅速占据主流(SVM以及更一般的核方法)
二十一世纪如今——连接主义学习卷土重来,“深度学习”浪潮(模型复杂度高,调参好效果就好,缺乏严格的理论基础,但显著降低机器学习应用者的门槛)
2.模型评估与选择
2.2 评估方法
-
留出法hold-out
直接将数据集划分成两个互斥的集合,其中一个作为训练集,另一个作为测试集
-
交叉验证法cross validation
先将数据集划分为k个大小相似的互斥子集,再将k-1个子集的并集作为训练集,余下的子集作为测试集。这样就获得了k组训练/测试集,从而可进行k次训练,将k次结果的均值作为返回值
-
自助法
在数据集较小、难以有效划分训练/测试集的时候很有用。但改变了初识数据集的分布,会引入估计偏差。
给定m个样本的数据集D,对它进行采样产生数据集D’(每次随机从D中挑选一个样本通过拷贝放入D‘中,然后再将该样本放回。重复进行m次后,就得到了包含m个样本的数据集D’)
2.3 性能度量
- 查准率和查全率
若一个学习器的 P-R 曲线被另一个学习器的曲线完全包住,则可断言后者的性能优于前者。
“平衡点”(Break-Event Point,简称BEP)它是“查准率=查全率”时的取值。
F1度量:
-
ROC与AUC
ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线
ROC 曲线的纵轴是"真正例率" (True Positive Rate ,简称 TPR) ,横轴是"假正例率" (False Positive Rate ,简称 FPR)
进行学习器的比较时,与P-R图相似,若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者;若两个学习器的ROC曲线发生交叉,则难以一般性地断言两者孰优孰劣,此时如果一定要进行比较,则较为合理的判据是比较ROC曲线下的面积,即AUC(Area Under ROC Curve)