迁移学习在风控建模冷启动中的应用(简介)
目录
背景与文献回顾
背景
- 风控在国家层面的重要性
三大攻坚战的“作战图”,其中之一就是推动重大风险防范化解取得明显进展。 2020年是进行防范化解金融风险目标的收官之年。
- 风控在金融机构层面的重要性
信贷风险控制是贷款机构的生存之本,也是提高收益的关键。
- 互联网金融风控体系
互联网金融风控体系有三个构成部分:数据信息,策略信息,人工智能模型。 在风控领域,风险规避手段有规则挖掘和人工智能模型两种。
- 冷启动问题
而当从业者面临新业务时,总是会遇到只有很少量数据甚至没有数据的情况,而且在很多场景下,收集标注数据代价是十分昂贵并且十分困难的。冷启动就是指在这种缺少数据的情况下,建立新业务模型的过程。
文献回顾
在风险控制领域中,信用评估的方法在初期是定性分析为主,后来统计方法进入到信用评估领域。 近些年来,随着人工智能越来越多得进入到风险控制领域,信用评估又增添了更多的方法。
以前解决初创期信贷产品的冷启动问题多依赖于业务人员的丰富的经验,可能因为业务理解有偏差而造成建模的不精确。后来针对产品初创期基本无数据积累的特点,提出类产品模型、伪风险模型、综合评价法、相似度模型、第三方通用评分几种建模方案的观点 , 以及无样本可依的风险模型可以根据德尔菲法(也叫做专家调查法)的模型来进行风险控制 。
机器学习领域,最初的关于迁移学习的基本研究是在研讨话题为“Learning to Learn”的NIPS-95研讨会上,这是关注于保留和重用之前学到的知识的机器学习方法的研讨会。自从1995年开始,越来越多的人开始关注和如今的迁移学习类似的学习方法,比如知识迁移,感应迁移等等。上世纪九十年代,Baxter等学者将迁移学习概念引入到统计学领域并且提出一些迁移学习方法。2005年, 美国国防部高级研究计划局的信息处理技术办公室发表的代理公告,给出了迁移学习的新任务,即把之前任务中学习到的知识运用到新的任务中的能力。21世纪初期,Schuller等对学习任务之间的相关性进行形式化的定义,等等,这些是对迁移学习理论的研究。 上海交大Dai等人提出TrAdaboost方法,在迁移学习领域使用AdaBoost的算法思想。香港科技大学Pan等人提出Transfer Component Analysis(TCA)方法,将MMD作为度量准则。Blitzer等人提出Structural Corresponding Learning(SCL)算法,将一个空间中的一些特征使用映射变换到其他空间中的轴特征上。中科院的赵等人对于无标签和有标签两种情况,提出TransEMDT方法,对前者,使用K均值聚类算法寻找最优化的标定参数,对后者,使用Decision Tree建立Robust的行为识别模型 , 等等。 迁移学习越来越成为研究的热门领域。
基础理论介绍
迁移学习
因为迁移学习打破了传统机器学习的独立同分布假设前提,所以,传统的机器学习从每个任务中抓取信息,而迁移学习可以在目标任务缺少高质量的训练数据的时候,从旧任务中获取知识并迁移到目标任务的完成过程中。 概念:给定源域DS和任务TS,一个目标域DT和任务TT,迁移学习使用DS和TS中学到的知识,来进行 DT中目标预测函数的学习,并且有DS≠DT或TS≠TT。当源域和目标域相同且源任务和目标任务相同,则学习问题是一个传统机器学习问题。
根据迁移什么可分为:
- 基于样本的迁移学习
根据一定的权重生成规则,重新加权源域中的一些标记数据,以便在目标域中使用
- 基于特征的迁移学习
通过特征变换的方式来迁移,或者将源域、目标域的数据特征变换到统一特征空间中,再利用传统的机器学习方法进行分类识别。
- 基于模型的迁移学习
发现源域和目标域之间的共享信息
- 基于关系的迁移学习
构建源域和目标域之间的相关性知识的映射,关注源域和目标域的样本之间的关系。
迁移学习方法
- TrAdaBoost
给源域中的样本赋予权重,经过迭代逐渐降低与目标域样本最不相同的样本的权重来削弱其影响来使其分布靠近目标域。
- 数据分布自适应
- TCA: 假设如果边缘分布接近,则目标域和源域的条件分布也会接近 目标是减小目标域和源域的边缘概率分布的距离。
- JDA: 假设源域和目标域的边缘分布和条件分布不同。其同时适配源域和目标域的边缘分布和条件分布。
- BDA: BDA通过采用一种平衡因子μ来动态调整边缘分布以及条件分布的距离。 TCA是μ=0时的BDA,JDA是μ=0.5时的BDA。
- 其他
特征选择法SCL, 子空间学习法之统计特征对齐CORAL
实证分析
(一)数据准备
- 源域数据
贷款业务A:贷款期限1-3年,平均贷款金额几千到几万,特点是无抵押,凭信用程度来贷款,即中等额度的信用贷款 数据集A保存在A_train_final.csv(含特征,标签),有40k条,业务A的训练数据。
- 目标域数据
贷款业务B:贷款期限7-30天,平均贷款金额为一千,特点是额度小、周期短、无抵押、流程快、利率高,即小额短期现金贷款。 数据集B保存在B_train_final.csv(含特征,标签)中,为4k条,是业务B的训练数据。
数据集中的特征包括no(用户id),ProductInfo开头的字段,WebInfo开头的字段,UserInfo开头的字段等,特征一共490维。标记:flag,取值0或1。数据集A和数据集B的字段相同。 本文所用的跨产品数据即具有两个不同产品的数据,来自平安旗下专业第三方商业征信机构——前海征信的信用贷款业务和现金贷业务脱敏数据。
(二)特征工程
缺失值图
数据集A的列的无效的简单可视化
数据集B的列的无效的简单可视化
数据的缺失比较严重,数据集A绝大多数的列有约40%的缺失,数据集B绝大多数的列有60%多的缺失。且数据集A和数据集B缺失也是有规律的。 不删除, 采用缺失值填充-1的方法。
相关性
相关性热力图:
计算相关系数矩阵,可以发现相关系数大于等于0.9的列数达到了302个。之后利用热力图可以可视化数据表里多个特征两两的相似度,由图可以看到,相关性也有一定的规律。
其他
数据部分维度为分类“0-1”变量,数据集缺失值填充-1后,归为离散型变量。其余归为连续型变量。将连续型变量做标准化Normalization处理。
因为数据不平衡,所以做过采样处理,又因为有分类变量,SMOTE不合适,所以使用SMOTENC增加少数类样本。
(三)TrAdaBoost迁移学习实验
为了控制变量,超参数优化后输出相对最优的传统机器学习模型后,将该模型作为相应的TrAdaBoost迁移学习模型的基学习器。使用随机搜索RandomizedSearchCV
|
模型 |
AUC |
ACC |
precision |
Recall |
F1-score |
对照组1 |
RandomForest |
0.6843 |
0.6842 |
0.6430 |
0.8271 |
0.7235 |
TrAdaBoost(RandomForest) |
0.7702 |
0.7704 |
0.9274 |
0.5863 |
0.7184 |
|
对照组2 |
GradientBoosting |
0.7759 |
0.7758 |
0.7538 |
0.8170 |
0.7841 |
TrAdaBoost(GradientBoosting) |
0.78 |