2.1 经验误差与过拟合
错误率:错误样本占总样本的比例
精度 = 1-错误率
误差、“训练误差”/“经验误差”(训练集)、“泛华误差”(新样本)
“过拟合”:把训练样本自身的一些特点当做了所有潜在样本都具有的一般性质,泛化能力很低。过拟合是机器面临的关键障碍。
“欠拟合”:训练样本的一般性质尚未学好。
2.2 评估方法
测试集和训练集尽可能保持互斥。
对已有数据集进行处理,方便从中得到一个模型。
处理方法:
①留出法:直接划分为两个互斥的集合。注意保持数据分布的一致性。若干次随机划分,重复进行试验评估后取平均值。通常将2/3-4/5的数据用于训练。
②交叉验证法(k折交叉验证):将数据集分层划分为k组,k-1组作为训练集,剩下一组作为测试集。然后重复k次,将结果取平均。k通常取10。特例:留一法。令k=1。开销很大。
③自助法:随机从m个样本的数据集中采一个数据,重复m次,得到一个新的数据集,把这个当做训练集,然后没选到的数据当做测试集。这会引入估计偏差。
④
⑤⑥⑦⑧⑨⑩
2.3 性能度量
模型的好坏是相对的,不仅取决于算法和数据,还决定于任务需求。
均方误差:的平方。
错误率和精度
查准率P:就是预测的正例里面有多少是真的正例。
查全率R:就是所有的真正的正例里面有多少是成功预测出来的。
通常二者相互矛盾,一高一低。
P-R曲线:完全包裹的曲线更优秀,另外对于有重叠的两个曲线,可以比较平衡点的位置。
F1度量:基于查准率与查全率的调和平均。具体公式见课本。另外还有Fβ度量,能让我们表达出对查准率与查全率的不同偏好。β大于1说明查全率有更大的影响,小于1说明查准率有更大的影响。