《机器学习》周志华第二章模型评估与选择:思维导图与课后答案

一.要点

思维导图
注:书P40倒数第二自然段最后两行内容和P41中2.4.3前面的两行相矛盾。式2.32应该是服从自由度为4的t分布

二.课后题

  1. 训练集数目为700,其中正例350,反例350.
    那么有(C350500)2
    余下的不用管
  2. 10折交叉验证:分层抽样。所以每折有5+,5-个样例。留下来做测试的也是5+,5-的样例。所以随机。错误率50%
    留一法:不管怎么分,因为测试集占了一个样例。同类样例在训练集中必然比另外一类的数目少。故而始终将测试集判断成相反样例。错误率100%
  3. 不妨令A的BEP值比B的低。那么,此时对A有P1=R1,F11=P1,对B有P2=R2,F12=P2;P1<P2.所以此时A的F1值低于B的F1值,与前提矛盾。
    原本是想这么搞的。但看清“此时”这个前提条件了吗?你咋晓得计算F1时P=R?推不过去,所以无法确定
  4. TPR=TP/(TP+FN)=R
    FPR=FP/(TN+FP)
    P=TP/(TP+FP)
    功夫不负有心人,P和FPR只要多试几次总能找出关系,再不济还有样例总数在,总能找出来的,我就不算了
  5. 由图可知。总面积减去ROC曲线上的面积就可以得到。具体的可以参考下https://blog.csdn.net/icefire_tyh/article/details/52065867这位的
  6. ROC曲线纵坐标TPR,横坐标FPR,可以得到错误率
  7. 看思维导图,有注明。在样本数目无限时,反推也是可以得到唯一ROC曲线的
规范化优点缺点
Min-max1.操作简单2.都是正的3.不用频繁更新出现极端值会导致情况不可靠
z-score1.出现极端值场面控制得住2.在0附近每次都得更新
  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值