大纲
Occam’s Razor
Simple Model
简单的假设是指包含更少的参数
简单的模型是指包含更少的假设
简单的模型通常意味着简单的假设
Simple is Better
那为什么简单的模型更好呢?下面从哲学的角度简单解释一下。机器学习的目的是“找规律”,即分析数据的特征,总结出规律性的东西出来。假设现在有一堆没有规律的杂乱的数据需要分类,要找到一个模型,让它的 Ein =0,是很难的,大部分时候都无法正确分类,但是如果是很复杂的模型,也有可能将其分开。反过来说,如果有另一组数据,如果可以比较容易找到一个模型能完美地把数据分开,那表明数据本身应该是有某种规律性。也就是说杂乱的数据应该不可以分开,能够分开的数据应该不是杂乱的。如果使用某种简单的模型就可以将数据分开,那表明数据本身应该符合某种规律性。相反地,如果用很复杂的模型将数据分开,并不能保证数据本身有规律性存在,也有可能是杂乱的数据,因为无论是有规律数据还是杂乱数据,复杂模型都能分开。这就不是机器学习模型解决的内容了。
Sampling Bias
Sampling Bias
技术上的解释:训练数据来自分布 P1 ,而测试数据来自分布 P2 , P1≠P2
物理上的解释:努力学习数学,结果是英语考试。
如果训练数据和测试数据不来自同一个分布,那么VC Bounds就会失效
Dealing With Bias
尽量让测试数据和训练数据服从独立同分布
Data Snooping
Power of Three
Three Theoretical Bounds
Hoeffding 理论 是针对单个假设,所以他对于测试理论有帮助
Muti-Bin Hoeffding理论 是针对M个假设,所以对于验证理论有帮助
VC理论 是针对无限的假设,所以他对于训练理论很有帮助