1.Example Framework真的没讲啥新的东西类。
小结一下辛普森家庭人物异常检测模型的框架:
训练的时候数据是都来自辛普森家族,调参的时候都要有。
Testing Set: Image x→x from Simpsons or not
2.Evaluation计算好坏:
上面的Dev Set部分要根据performance of f(x))来调整 λ ,下面来看怎么做:100 Simpsons,5 anomalies(红色).
最右边那个美女的信心分数是0.998,但是模型对于大多数的辛普森家族人物识别的信心分数是大于0.998的。
所以不是说有人物识别出来的信心分数很高就说这个分类器很烂,而是我们可以设置λ的阈值大于0.998,来确保其他人物的分类是非辛普森家族人物。
3.怎么评估一个分类器的好坏
Cost的判断,千万不要只看正确率
Accuracy is not a good measurement!
A system can have high accuracy, but do nothing.
因为异常值比较少。例如上图中的,如果5个异常值全部识别错误:
因为,可能5 wrong, 100 correct.比例悬殊,导致正确率很高,因此我们要分开来看,如果现在λ\lambdaλ在如下图所示的位置
那么我们可以根据异常值和正常值,是否被发现来做表格:4个没看出来
这两个系统哪个好要取决我们对False alarm或是Missing的容忍度。
我们可以把容忍度做Cost表格A:扣分制
意思是异常值Missing记1分,正常值False alarm记100分,那么系统1的cost为104,而系统2的cost为603。系统1比较好
如果用另外一个Cost表格B:
意思是异常值Missing记100分,正常值False alarm记1分,那么系统1的cost为401,而系统2的cost为306。系统2比较好。
Cost表格B比较适合惩罚Missing的情况,例如癌症未检测比无并检测为癌症要严重。
Some evaluation metrics consider the ranking. For example, Area under ROC curve
根据不同的重点,取决于你要那这个系统来做什么事情。才能说到底是好还是不好