机器学习:学习主体为机器,将数据集Dataset分类为训练集S 和 测验集T 以训练计算机
机器学习本质 | 变量维度取值类型 | 机器学习类型 |
归纳学习 | 离散discrete | 分类 |
连续continuous | 回归 |
免费午餐定理:当穷举所有假设空间(包括不合实际的假设),无论是精心设计算法还是白痴算法对问题的穷举情况而言可能在期望测试误差和上都一样
组内重点讨论了时间复杂度概念、NP-P问题关系与训练集外误差和公式1.1推导。
数据分类方法3:
留出法:S与T中的正例反例个数应当相近,存在【误差-偏差权衡】
· S大→模型接近总样本,但是测试结果不稳定,方差大
T大→学习样本较小,偏差大
交叉验证法cross validation-m次n折
bootstrap(有放回抽样)-适用样本空间小
性能度量指标
- 指标1:式1.1 1.2 训练集外误差
- 指标2:均方误差
- 指标3 :错误率、精确度与错误代价(代价敏感错误率,就是平均成本)
均方误差+精确度=1
- 指标4:查准率、查全率&PR曲线~类似计量logistics回归中的灵敏度sensitivity和特异度specificity
混淆矩阵计算(Confusion Matrix) | |||
---|---|---|---|
实际\检测 | p ositive+ | negative- | |
true | TP | TN | 所有实际患病人数 |
false | FP | FN | 所有健康人群人数 |
所有判定为阳样本个数P |
查准率P=判阳中实际感染人数TP/所有判定为阳样本个数(TP+FP)
查全率R/敏感度=查验为阳的病患TP/所有真正患病人数,病症探测是否灵敏(TP+TN)
特异度=查验到的阴性占所有健康人群比例
参考文献:https://www.jianshu.com/p/7919ef304b19
指标五:AUC+roc上面积=1