Part4主要介绍VC维概念。如果Hypotheses set的VC Dimension是有限的,且有足够多N的资料,并且演算法能够找到一个hypotheses使得 Ein≈0 ,那么机器学习可行。Part5考虑存在noise时,上述的说法能否成立,并且介绍Error的相关内容。
1 Noise
数据集有Noise的情况下,VC维还可以用吗?还是从直观上解释,不做具体数学证明。那么所谓的Noise到底是什么?
*
y
:人为因素,打错label
*
*
X
本身记录错误
对于二分类问题,
2 Error
Error的定义似乎不是很明确,我自己理解为
Ein
和
Eout
中Error的衡量。我们的learning希望找到一个
Eout
很小的
g
。但是
之前的二分类问题中,误差是这样定义的:
这样的误差定义方式是只要判错,误差就为1。那么对于数量为
N
的资料,
误差的定义还有其他的类型,如在回归中常用的平方差
(y^−y)2
。实际应用中,先根据问题选择合适的误差衡量方式。把
h
作用与
Summary
后面讲了些代价敏感矩阵之类的,不多提。总之有noise时候也可以learning,那么定义好error,合适的演算法就能够找到比较小的
Ein
,这时,learning就是可行的。
2018-01-29 于杭州