一、学习知识点概要
了解数据概况
学习混淆矩阵概念
准备率、精确率、召回率、F1-Score、P-R曲线、ROC空间以及金融风控预测类常见的评估指标。
二、学习内容
分类算法:
何为分类:
分类(Categorization or Classification)是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。
为何要分类:
当我们拿到一个数据集时,它往往是杂乱无章的,我们需要通过对数据进行分类,更好地提取数据的信息、利用同种类别的数据进行特征分析。
如何评价一个分类算法的好坏:
对于二分类问题,机器预测的和实际的还是会有所偏差,所以我们引入评估指标来评价分类器的优良。
四个观测值:
①TP(真实正例):模型预测结果是正例并且实际值也是正例(如预测一名用户违约,而真实中该患者确实违约)
②FP(错误正例):模型预测结果是正例然而实际值确是负例(如预测一名患者违约,而真实中该患者无违约)
③FN(错误负例):模型预测结果是负例然而实际值却是正例(如预测一名患者无违约,而真实中该患者却违约)
④TN(真实负例):模型预测结果是负例并且实际值也是负例(如预测一名患者无违约,而真实中该患者确实无违约)
(我们在建立模型进行预测时,总希望混淆矩阵中的TP、TN数量越大越好&#x