西瓜书 第二章要点归纳

  1. 错误率(error rate):分类错误的样本数占样本总数的比例,若在m个样本中有a个分类错误,则错误率E=a/m
  2. 精度(accuracy):1-错误率,即1-a/m.
  3. 训练误差(training error)/经验误差(empirical error):学习器在训练集上训练的过程中产生的误差。泛化误差(generalization error):学习器在新样本上的误差。
  4. 过拟合(overfitting):学习器太过于契合训练集中的数据导致学习器将训练集中的数据特征当成所有潜在样本数据集中的数据的一般特征。欠拟合(underfitting):学习器未把训练集中的数据特征学习到位。
  5. 对数据集D进行切割产生训练集S和测试集T的几种方法:
    1. 留出法(hold-out):按照一定比例随即将数据集D划分为两个互斥的集合,其中一个为训练集S,另一个为测试集T。
    2. 交叉验证法(cross validation):先将数据集D划分为k个大小相似的互斥子集(采用分层采样),每次训练的时候使用k-1个子集进行训练,最后一个子集作为测试集,这样处理即得到k组训练集/测试集,可以进行k次训练和测试,最终得到平均值。交叉验证法得到的结果取决于k的取值,因此也被称为k折交叉验证(k-fold cross validation)。
    3. 自助法(bootstrapping):对于含有m个样本的数据集D,对其进行自助采样:每次随机从D中拷贝一个样本放入数据集D‘中(每次采样都有可能选取到之前已经拷贝过的样本),重复m次后生成数据集D’。D中有一些样本会在D‘中反复出现而另一部分会从未出现。在一次采样中,一个样本始终不被采样的概率为1-\frac{1}{m},则该样本在m次采样中均不被采样的概率为\left ( 1-\frac{1}{m} \right )^{m},取极限后得:lim_{m\rightarrow \infty }\left ( 1-\frac{1}{m} \right )^{m}=\frac{1}{e}\approx 0.368,即在经过m次采样后,一个样本始终不被采样的概率约为36.8%。因此,D’可以作为训练集S,而数据集D中除去D‘中的样本所剩下的数据集D''可作为测试集T。
  6. 性能度量(performance measure):用来衡量模型泛化能力。回归任务通常用均方误差来评估:E\left ( f;D \right )=\frac{1}{m}\sum_{i=1}^{m}\left ( f\left ( x_{i} \right )-y \right )^{2}
  7. 分类任务中最常用的性能度量为错误率和精度。对于样例集D,错误率为:E\left ( f;D \right )=\frac{1}{m}\sum_{i=1}^{m}\mathbb{I}\left ( f\left ( x_{i} \right )\neq y_{i} \right ),精度为:1-E\left ( f;D \right )
  8.  查准率(precision),查全率(recall):在二分类问题中,样例可依据真实类别和机器学习预测类别分为四类:真正例(True Positive),假正例(False Positive),真反例(True Negative),假反例(False Negative)。TP+FP+TN+FN=样例总数。(注:真正例是被正确放入类1,假正例是被错误放入类1,而真反例是被正确放入类2,假反例是被错误放入类2。)
    真实情况预测结果
    正例反例
    正例TPFN
    反例FPTN
    查准率P:P=\frac{TP}{TP+FP} ,查全率R:R=\frac{TP}{TP+FN}。    
  9. P-R曲线:以查全率为横轴,查准率为纵轴绘成的曲线。 若一个学习器的PR曲线完全包住另一个,则后者的性能优于前者,例如学习器A的性能有云学习器C。若两个学习器的PR曲线有交叉,则需要使用平衡点(Break-Even Point,BEP)。

  10. ROC曲线(Receiver Operating Characteristic):根据学习器预测结果进行排序,逐个将样本作为正例进行预测,每次预测计算出真正例率(True Positive Rate):TPR=\frac{TP}{TP+FN},假正例率(False Positive Rate):FPR=\frac{FP}{FP+TN}。将真正例率为纵轴,假正例率为横轴,得到ROC曲线。与PR曲线类似,若一个学习器的ROC曲线被另一个完全包住,则后者的性能优于前者。若两个学习器的ROC曲线发生交叉,则需要比较ROC曲线下的面积。AUC(Area Under ROC Curve):AUC=\frac{1}{2}\sum_{i=1}^{m-1}\left ( x_{i+1}-x_{i} \right )\cdot \left ( y_{i}+y_{i+1} \right ),x,y为构成ROC曲线的坐标点。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值