金融风控数据挖掘实战
Wine Ray
这个作者很懒,什么都没留下…
展开
-
5.天池金融风控-贷款违约预测新人赛之模型融合
模型融合就是将两个或多个模型进行融合,主要的方法有以下几种方法:平均法简单平均法加权平均法投票法简单投票法加权投票法综合:排序融合log融合stacking:构建多层模型,并利用预测结果再拟合预测。blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。boosting/bagging(在Task4中已经提及,就不再赘述)Blending与stacking的不同stackingstacking中由于两层使用的数据原创 2020-09-27 16:48:47 · 436 阅读 · 0 评论 -
天池金融风控-贷款违约预测新人赛之建模调参
在完成第三部分的特征工程之后,我们认为我们已经获得了想要的并且标准的数据,接下来就可以将数据放到合适的模型算法之中来训练模型,通过调整模型的参数来使得模型更健壮,这一部分主要做的就是建模及调整参数。这一部分的学习分为两个部分,一个是金融风控常用的机器学习模型的学习,第二个是这些模型的实际应用与调参。1.机器学习算法的学习1.1Logistic回归逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。这一部分我们通过以下五个点来了解这个算法,分别原创 2020-09-24 17:25:44 · 697 阅读 · 0 评论 -
3.天池金融风控-贷款违约预测新人赛之特征工程
第三部分主要是对数据做特征工程,这也是影响数据挖掘模型好坏的非常重要的一步。我们的学习目标有:1.学习数据的预处理,包括特征的预处理、缺失值和异常值的处理、数据分桶等2. 学习特征交互、编码、选择的相应方法1.数据预处理第一步先导入我们需要的库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom tqdm import tq原创 2020-09-21 13:08:55 · 2736 阅读 · 1 评论 -
2.天池金融风控-贷款违约预测新人赛之数据分析
前一部分我们对一些分类指标等一些预备知识进行了学习,接下来我们要进行的是探索性的数据分析(EDA)。EDA是我们进行数据挖掘非常重要的一步,做的好的EDA可以让我们对数据作出更准确的分析,一方面是让我们了解整个数据集,包括缺失值,异常值,变量间的练习等,另一方面也是为我们之后的特征工程做好准备。1.数据的总体了解,缺失值,唯一值#导入需要的库import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.p原创 2020-09-14 12:55:17 · 732 阅读 · 0 评论 -
1.天池金融风控-贷款违约预测新人赛之预备知识
比赛链接:金融风控-贷款违约预测因为这是一个金融风控专题的数据挖掘实战,在开始之前先引入一些预备知识。1.预备知识1.1预测指标本次竞赛用AUC作为评价指标,AUC为ROC曲线下与坐标轴围成的面积大小。分类算法常见的评估指标混淆矩阵(confused matrix)1.若一个实例为正类,预测也为正类,则为真正类TP(True Positive)2.若一个实例为正类,预测也为负类,则为假负类FN(False Negative)3.若一个实例为负类,预测也为正类,则为假正类FP(False原创 2020-09-11 16:31:57 · 313 阅读 · 0 评论