一、学习知识点概要
1、此次训练营挑战赛的任务与赛题的基本情况 - 预测金融风险
2、数据集中的概况和性质介绍
3、根据数据预测的指标的性质与计算公式
4、对数据处理的方法
二、学习内容
先是除去匿名的特征之外对数据集中的每一项数据的概况和列的性质特征作详细的了解,即了解数据集中每一列数据的名称的含义,再学习分类算法常见的评估指标:混淆矩阵-由实例和被预测作为二维的四种类;准确率-不适合样本不均匀的情况;精确率-被预测为正样本里正确的比率;召回率-正样本里被预测正确的比率;为兼顾精确率和召回率的F1-Score;描述精确率和召回率的P-R曲线;ROC曲线的x轴TPR(正例中被正确判断的比例)与y轴FPR(负例中杯错误判断的比例);AUC-ROC曲线下与两坐标轴围成的面积,介于0.5~1之间,越高真实性越高。KS曲线以ROC两轴作纵轴,以选定阈值做横轴,更精确检验模型符合程度。对其数据的读取方法以及如何运用python计算分类指标。
三、学习问题与解答
·ks曲线中横轴的选定阈值从何而来?(以后学习中可能知晓)
四、学习思考与总结
·此次课时对竞赛所需要的基础知识进行了学习,为以后的学习打下基础;
·需要学习相关Python知识辅助计算处理数据
·需要更多运用来加深学习