chapter 1绪论
- 机器学习:通过计算手段,利用经验来改善系统自身性能。
- 模型:泛指从数据中学到的结果
- 分类:预测离散值
- 回归:预测连续值
- 预测过程称为“测试”
- 根据训练数据是否拥有标记信息,学习任务可大致划分为两大类"监督 亦称啃导f币学习"和 学习" (supervised learning) 和"无监督学习"
- 学得模型适用于 新样本的能力,称为"泛化" (generalization) 能力
- 归纳 (induction) 与横绎 (deductio丑)是科学推理的两大基本手段.前者是从 特殊到一般的"泛化" 过程,即从具体的事实归结出一般性规 律;后者则是从一般到特殊的"特化",即从基础原理推演 出具体状况
- 偏好:于一个具体的学习算法而言?它必须要产生一个模型.这时,学习算 法本身的"偏好"就会起到关键的作用.
- 奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个
- 所有"问题"出现的机会相 同、或所有问题同等重要,总误差与学习算法无关。
模型评估与选择
- 精度=1-错误率
- 训练集上:训练误差;新样本下:泛化误差
- 过拟合和欠拟合,过拟合:通过经验误差最小化就能获最优解 ,欠拟合:提高学习能力
评估方法
测试集尽量与训练集互斥
- 留出法:直接划分两个互斥集合,并保持数据分布一致性
- 交叉验证法:分成k个大小相似子集,保持数据分布一致性,每次k-1个训练,一个测试,重复多伦。
- 自助法:随机从D中选并放回,重复m次得到m个样本的训练集。
- 调参:每个参数选定范围和步长,把训练数据划分位训练集和验证集,基于验证集的性能来进行模型的选择和挑参。
性能度量
- 均方误差
- 查准率、查全率
- TP+FP+TN+FN=样例总数
- P查准率
- R查全率
- 查准率和查全率是一对矛盾的度量
如果将所有西瓜都选上,那么所有的好瓜也必然 都被选上了,但这样查准率 就会较低;若希望选 出 的瓜中好瓜比例尽可能 高,则可只挑选最有把握的瓜, 但这样就难免会漏掉不少好瓜,使得查全率较 低. - P-R曲线
- 平衡点BEP
- F1度量
分类阈值:若大于阈值则分为正类,否则为反类。我们更重视"查准率",则可选择排序中靠前的位置进行截断;若更重视"查 全率",则可选择靠后的位置进行截断.
- ROC曲线:给定 m+ 个正例和 m一 个反例,根据学习器预测结果对样例进行排序,然后把分类阔值设 为 最大, 即把所有样例均预测为反例,此时真正例率和假正例率均为 0 , 在坐标 (0, 0) 处 标记一个点然后,将分类 阐值依次设为每个样例的预测值,即依次将每个样例 划分为正例.然 后用线段连接相邻点即 得.