一、学习知识点概括
1、分类算法常见的评估指标 2、金融风控预测类常见的评估指标
3、对数据读取和指标评价示例
二、学习内容
2.1分类算法常见的评估指标
1、混淆矩阵
真正类TP:被预测为正样本,实际上也是真样本
假正类FP:被预测为正样本,实际上是负样本
真负类TN:被判定为负样本,实际上是负样本
假反类FN:被判定为负样本,实际上是正样本
2、准确率A:就是判断准确的样本比上所有的样本
3、查准率P:TP比上所有判断为正样本的样本
4、查全率R:TP比上所有实际上为真样本的样本
5、P-R曲线:p与R变化的曲线
6、ROC:X轴假正例率;Y轴真正例率
7、AUC:ROC曲线下与坐标轴围成的面积,0.5<AUC<1,越接近1.0,检测真实性越高
2.2金融风控预测类常见的评估指标
1、KS-评估模型区分度(在风险预测模型中,能把风险高、低不同的人群正确区分开来),区分度越大,模型的风险排序(通过风险比较,对风险大小进行排序)能力越强;ks越大,需要检查是否过于拟合
2、ROC
3、AUC
2.3对数据读取和指标评价示例
读取数据:利用pandas读取数据
其中
#通过read_csv函数读取csv文件
train = pd.read_csv('train.csv')
testA = pd.read_csv('testA.csv')
三、学习问题与解答
1、
混淆矩阵: [[1 1] [1 1]]
为什么混淆矩阵长这样?
可以参考这个做理解
TP FN
FP TN
2、AUC是什么,要怎么算?
AUC的概率意义是随机取一对正负样本,正样本得分大于负样本的概率
四、学习思考与总结
零基础来学习可能还是有点难,一点一点看,百度一下才明白其中的原理,所以可能真的要学习一下前面的知识才能理解一些。开始比赛前要先了解比赛。