学习知识点概要
- 混淆矩阵(Confuse Matrix)
- 准确率(Accuracy)
- 精确率(Precision)
- 召回率(Recall)
- F1 Score
- P-R曲线(Precision-Recall Curve)
- ROC(Receiver Operating Characteristic)
- TPR
- FPR
- AUC(Area Under Curve)
- KS(Kolmogorov-Smirnov)
学习内容
1、评估指标
AUC(area Under Curve)
其中,AUC有两方面的含义:
- AUC只反映模型对正负样本排序能力的强弱,对score的大小和精度没有要求。
- AUC越高,模型排序能力越强。理论上,当模型把所有正样本都排在负样本之前时,AUC为1.0,是理论的最大值。
# AUC在sklearn中的工具调用以及使用
import numpy as np
from sklearn.metrics import roc_auc_score
y_true=np.array([0,0,1,1])
y_scores=np.array([0.1,0.4,0.35,0.8])
roc_auc_score(y_true,y_scores)
2、数据下载
在官网的赛题与数据那一栏就可以看到这三个文件,点击下载按钮即可。
3、比赛流程
学习问题与解答
今天学习的东西除了关于比赛的一些操作和理论,更多的是学习在CSDN如何编辑博客(笑哭),以前一直在看一些大神的文章,有那么一瞬也想过自己要不也来写写,但是很快就被自己脑袋里面另一个小人“劝退”了,今天在打卡的同时顺便也学习如何编辑一篇博客,算是无意中踏出了第一步吧,在这个比赛结束后,就算没有学到什么数据挖掘的硬核知识,好歹也学到了怎样写博客了(bushi,顺便提一下,要是这里能用表情就好了。。。
学习思考与总结
今天就算是正式开始数据分析与挖掘之旅了,我本人也是一直纠结该不该来参加这个比赛,毕竟自己不是属于这个方向的,这个月在生活上的事情也格外的多且杂。但是总要给自己一点压力的,我不知道以后能不能从事这方面相关的工作,现在既然有兴趣,那就趁自己还在学校多学一点是一点吧。今天的task1还是属于理解赛题的阶段,了解了比赛的评估指标和数据特征,之后的数据分析与可视化,也就是EDA就是task2的工作了。那task1就到这吧,第一次写文章就是第一次来技术大圈CSDN,脑子一片空白。。。唉,加油,打工人!