西瓜书一,二章笔记
一 绪论
1.1 基本术语
样本/示例:每天记录是关于一个事件或对象的描述
属性/特征:反映事件或对象在某方面的表现或性质的事项
-
属性值:属性上的取值
-
维数:属性的个数
样本空间/属性空间:属性张成的空间
1.2 归纳偏好
大佬说跳过,之后再看
二 模型评估与选择
2.1 误差与拟合
误差
- 训练误差/经验误差:学习器在训练集上的误差
- 泛化误差:在新样本上的误差(显然希望得到泛化误差小的学习器)
拟合(好的学习器应尽可能的从训练样本中学出适用于所有潜在样本的“普遍规律”)
- 过拟合:把样本自身的特点当做所有潜在样本的一般性质导致泛化能力下降 (学习能力强大导致的)
- 欠拟合:对训练样本的一般性质尚未学好 (学习能力低下导致的)
过拟合是机器学习面临的关键障碍,而且无可避免,只能“缓解”(P≠NP)
2.2 数据集分类方法
测试集训练集应该尽可能的互斥
2.2.1 留出法
直接将数据集D划分为两个互斥的集合,一个作为训练集S,一个作为测试集T
划分比例:一般为2/3~4/5的样本用于训练
2.2.2 交叉验证法
将数据集D划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的作为测试集
通常把交叉验证法称为“k折交叉验证”,k最常用值是10,其他常用值为5,20等
2.2.3 自助法
2.3 性能与度量
2.3.1 回归任务
要评估学习器的性能就要把学习器预测结果与真实标记进行比较
回归任务最常用的性能度量是 均方误差
E ( f : D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f:D)=\frac{1}{m}\sum_{i=1}^{m}{(f(x_i) - y_i)^2} E(f:D)=