目录
4. 模型评估与模型选择
4.1 训练误差与测试误差
训练误差:模型关于训练数据集的平均损失(N是训练样本容量)
测试误差:模型关于测试数据集的平均损失(N’是测试样本容量)
训练误差的大小对判断给定问题是不是一个容易学习的问题是有意义的,但本质上不重要。
测试误差反映了学习方法对未知的测试数据集的预测能力(又称“泛化能力”generalization ability),是重要的。
4.2 过拟合与模型选择
过拟合(over-fitting):一味追求提高对训练数据的预测能力,导致所选模型的复杂度(参数个数,p.s.参数即M次多项式的系数)比真模型更高(参数过多),使模型对已知数据预测得很好,对未知数据预测得很差。
模型选择:避免过拟合,提高模型的预测能力。
模型选择的目的:选择复杂度适当的模型,以达到使测试误差最小的学习目的。
5. 模型选择方法:正则化与交叉验证
5.1 正则化
正则化(regularization)是结构风险最小化策略的实现,类似于模型的先验概率:经验风险+正则化项(λ是调整权重的系数)
5.2 交叉验证
交叉验证(cross validation):重复使用数据进行训练集和数据集的切分组合。
- 简单交叉验证:70%训练集、30%测试集
- S折交叉验证:将数据切成S个互不相交大小相同的子集(如各20%),利用S-1个子集的数据进行训练,用余下的子集进行测试。然后对S种选择重复进行训练与测试,选出S次测评中平均测试误差最小的模型。
- 留一交叉验证:S=N(给定数据集的容量),在数据缺乏的情况下使用。
6. 泛化能力
- 泛化误差(generalization error):
模型对未知数据项预测的误差,即所学习到的模型的期望风险。
- *泛化误差上界:样本容量的函数(反比)、假设空间容量的函数(正比)
7. 生成模型与判别模型
生成模型(generative model):
- 表示给定输入X,产生输出Y的生成关系。
- 数据学习联合概率分布P(X, Y),然后求出条件概率分布P(Y|X)作为预测模型。
- 特点:
1)可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)
2)样本容量增加时,学习收敛速度更快(学到的模型可以更快收敛于真实模型)
3)隐变量存在时可用
P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac {P(X,Y)}{P(X)} P(Y∣X)=P(X)P(X,Y)
e.g.朴素贝叶斯、隐马尔可夫模型
判别模型(discriminative model):
- 对于给定的输入X,应该预测什么样的输出Y。
- 数据直接学习决策函数 f ( X ) f(X) f(X)或条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)作为预测模型。
- 特点:直接面对预测,学习的准确率更高,可以简化学习问题,对数据进行各种程度上的抽象/定义特征并使用特征
K近邻、感知机、决策树、逻辑回归、最大熵模型、支持训练集、提升方法、条件随机场
8. 监督学习应用
8.1 分类问题
定义:输出变量Y取有限个离散值
评价指标:分类准确率——对于给定的测试集,分类器正确分类的比率。
- 精确率(precision):
P = T P 正 正 T P 正 正 + F P 负 正 P=\frac{TP正正}{TP正正+FP负正} P=TP正正+FP负正TP正正
*TP——正类(关注的类)预测为正类;FP——负类预测为正类。 - 召回率(recall):
R = T P 正 正 T P 正 正 + F N 负 负 R=\frac{TP正正}{TP正正+FN负负} R=TP正正+FN负负TP正正
*FN——正类预测为负类。 -
F
1
F_{1}
F1值:精确率和召回率的调和均值
2 F 1 = 1 P + 1 R \frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R} F12=P1+R1 F 1 = 2 T P 2 T P + F P + F N F_{1}=\frac{2TP}{2TP+FP+FN} F1=2TP+FP+FN2TP
e.g. K近邻、感知机、朴素贝叶斯、决策树、决策列表、逻辑回归、支持向量机、提升方法、贝叶斯网络、神经网络等
8.2 标注问题
定义:标注(tagging)问题是分类问题的推广,是更复杂的结构预测问题的简单形式。
目的:对观测序列给出标记序列作为预测。
评价指标:标注准确率、精确率、召回率
常用领域:信息抽取、NLP(词性标注)
e.g. 隐马尔可夫模型、条件随机场
8.3 回归问题
定义:预测输入变量与输出变量之间的关系,相当于函数拟合。
分类:一元回归/多元回归,线性回归/非线性回归。
最常用的损失函数——平方损失函数,此时回归问题可以由OLS(最小二乘法)求解。