很多刚刚入门的同学们面对一个刚刚到手的课题就像面对一块刚刚到手的烫山芋一样,无从下口… …是无从下手。那么应该如何开始呢?答案很简单,立刻搭建一个最简单的模型,然后按照划分的训练集开始训练,然后用开发集测试得到的结果进行一轮一轮的迭代。
如果你是这一行业的老手,或许熟知这一领域的各种方法,或许博览这一领域的著名paper,当然你不需要从最简单的模型开始搭建。
当你搭建好了一个最初的模型,就放心的训练它吧,当然你不能幻想它能带给你什么样的结果,但是它能给你一个非常重要的信息,就是指向优秀结果的路标。
当你的最初的最简单的这个模型训练结束后,得到测试结果,你会通过测试结果知道是偏差出了问题还是方差出了问题(不清楚偏差与方差的同学请点击链接)。当然最初的模型都是偏差过大。
然后我们要分析测试过程中模型搞错的那些样本的特性。看看是哪些问题造成了模型将这些样本搞错。
用猫鉴别器举例,我们训练一个模型来鉴别一个图片是不是猫,结果有10%鉴别错误,我们就来分析一下这10%的样本有什么特性。
结果发现,其中6%是因为图片模糊,3%因为把豹子等猫科动物也鉴别成猫,1%是因为样本标签是错的(例如本来是狗,标签写的却是猫)。通过分析,我们可以清晰地知道改进什么会给我们带来多大的收益。改进图片模糊问题,最高可以增加6%的准确率。而花多达数月的时间去纠正样本标签,最高的收益也只是1%而已。
如