第一章
基本术语
1.数据集
2.样本
3.样本空间(假设空间)&特征向量
以西瓜为例:西瓜具备"色泽"、“根蒂"、"敲声"三种属性,依照这三种属性,每种属性又具备本身属性值+“ * ”(存疑值),因此要判断一个西瓜是否好瓜的的样本空间规模大小为:4x3x3+1(好瓜定义不存在)=37
而将样本空间中"色泽"、“根蒂"、"敲声"三种属性作为坐标轴,每个西瓜均可在该空间中找到自己的坐标向量,该向量即为特征向量。
补充说明:
此部分容易存在疑惑,在阅读过程中看到很多教程都没有进行介绍说明,但实际学习过程中很多伙伴也同样不知道此处假设空间的规模是怎么计算得到的。最后终于找到了一个视频给出了一个解释,留有笔记如上,但因历时久远,已找不到原视频,在此进行补充说明。
4.维数
样本空间的属性种数
5.监督学习
分类任务
预测离散值,如西瓜是好瓜、坏瓜
回归任务
预测连续值,如西瓜成熟度(0.95、0.37……)、甜度
6.无监督学习
聚类任务&簇
将西瓜依照某些潜在标准划分成不同组别(每组即为一个“簇”),如浅色瓜、深色瓜;本地瓜、外地瓜(在分组过程中模型往往并不提前知道这些分组条件)
7.版本空间
实践中假设空间规模往往很大,但训练集有限,因此将与训练集完全一致的“假设集合”称为版本空间
8.归纳偏好
“奥卡姆剃刀”
若多个假设与观察一致,选最简单的那个
但任何假设都不能适用所有场景
第2章 模型评估与选择
训练误差
模型在训练集上的误差
泛化误差
模型在新样本上的误差
留出法
分层采样
单独使用留出法评估结果未必可靠,常进行若干次随机划分、重复实验取均值作为评估结果
交叉验证
将含有m个样本的数据集D随机分为k份互斥子集,取k-1为训练集,剩余为测试集,重复p次,“p次k折交叉验证”,k最常取10,此外5、20等
当m=k即为留一法
缺陷:数据集大的时候,该方法成本过大,难以调参,且该方法未必永远比其他方法有效
自助法
使用于数据集小,难以划分训练集和测试集时,可产生多个不同训练集,对集成训练有很大好处。
方法选用总结:
在数据集样本充足时选用留出法和交叉验证法,数据量小时考虑自助法。
调参
调参原则
含m个样本的数据集D,训练调参过程中只可使用一部分数据进行训练,在调参完成后,在使用全部训练集D重新训练模型,并作为最终结果进行验证提交模型。
评估指标
回归任务——均方误差
分类任务——错误率、精度
查准率、查全率和F1