赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能(或者说是借出去之后是否会成为坏账 charged off)。这是一个典型的分类问题。
项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl
比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction
1.学习目标
理解赛题数据和目标、清楚评分体系。
2.了解赛题
2.1 赛题概况
比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。
2.2数据概况
一般而言,在比赛中的数据的特征都会有介绍(除了匿名特征以外)。Tip:匿名特征,就是未告知数据列所属的性质的特征列。
train.csv
- id 为贷款清单分配的唯一信用证标识(可以挖掘有用信息,比如是否有表示地区标识的内容在里面,便于后面在neo4j数据库中使用社区发现算法、louvain算法)
- loanAmnt 贷款金额
- term 贷款期限(year)
- interestRate 贷款利率
- installment 分期付款金额
- grade 贷款等级