第三课
week1
单一数字评估指标
评估你的分类器的一个合理方式是观察它的查准率(precision)和查全率(recall)。
- 如果分类器 A 有95%的查准率,这意味着你的分类器说这图有猫的时候,有95%的机会真的是猫。
- 查全率就是,对于所有真猫的图片,你的分类器正确识别出了多少百分比
训练开发测试集
如何设立开发集和测试集,开发(dev)集也叫做开发集(development set),有时称为保留交叉验证集(hold out cross validation set)。然后,机器学习中的工作流程是,你尝试很多思路,用训练集训练不同的模型,然后使用开发集来评估不同的思路,然后选择一个,然后不断迭代去改善开发集的性能,直到最后你可以得到一个令你满意的成本,然后你再用测试集去评估
我建议的是你将所有数据随机洗牌,放入开发集和测试集,所以开发集和测试集都有来自八个地区的数据,并且开发集和测试集都来自同一分布,这分布就是你的所有数据混在一起。
数据少的时候,分60%训练集,20%开发集,20%测试集
数据太多(1百万个样本),98%作为训练集,1%开发集,1%测试集,更合理