数据分析（一）_数据分析的解释变量能查吗-CSDN博客

本文链接：https://blog.csdn.net/weixin_45235606/article/details/113185102

特征提取
数据有40000 个报告编号，其中 30000 个给予了是否存在违约行为的信息。我们的目标是利用 30000 个有标注的观测拟合模型并在 10000 个未标注的观测上做出预测。对于某些文件中存在的某个报告编号对应多条观测的状况，我们采用了求和，平均等方法构造出新的特征，并对所有的特征依据以下原则进行了筛选。
• 贷款、贷记卡两张表与信用评级的相关数据在之后的未销户贷记卡或者未结清贷款、逾期（透支）信息汇总、贷记卡逾期/透支记录等几张表中均有所体现，所以我们选择从后几张表中提取我们所关心的解释变量。
• 我们发现某些变量方差过小，甚至在所有观测中都是一样的，即不能提供任何有益的信息，例如中信用提示表中的本人声明数目、异议标注数目，查询记录汇总、信贷审批查询记录中的查询次数。引入这些变量并不能显著提升模型的性能，并可能降低某些不适用于高维数据的算法的精度，因此我们对这些变量予以舍弃。
• 我们希望我们所选取的特征能尽可能与贷款申请人或担保人的信用行为特征，身份背景，经济状况相关，以提高模型的解释性并便于后续的实证分析。比如某个贷款申请人或担保人的薪水，曾经的违约记录是我们尤其关心的变量，而贷款发放日期，查询操作员等变量则无关紧要，应予以舍弃。
我们最终提取了44个变量来拟合我们的模型，其中有8个类别变量，3个连续变量。 python 的 scikit-learn 模块的大多数算法都默认变量都是数值变量，为了兼容这一特征，我们对类别变量采用了独热编码的量化方法。