西瓜书第1~2章浏览

机器学习:学习主体为机器,将数据集Dataset分类为训练集S 和 测验集T 以训练计算机

机器学习本质变量维度取值类型机器学习类型
归纳学习离散discrete分类
连续continuous回归

免费午餐定理:当穷举所有假设空间(包括不合实际的假设),无论是精心设计算法还是白痴算法对问题的穷举情况而言可能在期望测试误差和上都一样

组内重点讨论了时间复杂度概念、NP-P问题关系与训练集外误差和公式1.1推导。

 数据分类方法3:

        留出法:S与T中的正例反例个数应当相近,存在【误差-偏差权衡】

·              S大→模型接近总样本,但是测试结果不稳定,方差大

                T大→学习样本较小,偏差大

        交叉验证法cross validation-m次n折

         bootstrap(有放回抽样)-适用样本空间小

性能度量指标

  •         指标1:式1.1 1.2 训练集外误差
  •         指标2:均方误差
  •         指标3 :错误率、精确度与错误代价(代价敏感错误率,就是平均成本)

        均方误差+精确度=1

  • 指标4:查准率、查全率&PR曲线~类似计量logistics回归中的灵敏度sensitivity和特异度specificity

混淆矩阵计算(Confusion Matrix)

实际\检测p  ositive+negative-
trueTPTN所有实际患病人数
falseFPFN所有健康人群人数
所有判定为阳样本个数P

查准率P=判阳中实际感染人数TP/所有判定为阳样本个数(TP+FP)

查全率R/敏感度=查验为阳的病患TP/所有真正患病人数,病症探测是否灵敏(TP+TN)

特异度=查验到的阴性占所有健康人群比例

参考文献:https://www.jianshu.com/p/7919ef304b19

指标五:AUC+roc上面积=1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值