金融风控探索性数据分析

金融风控探索性数据分析(EDA)

对数据简单查看

f = open(r"E:\data\金融风控\train.csv")
data_train = pd.read_csv(f)
f_test = open(r"E:\data\金融风控\testA.csv")
data_test = pd.read_csv(f_test)
data_train.head()#查看数据前五行
data_train.shape#查看数据的行列数
data_train.columns#查看数据列的索引
data_train.info()#查看数据每列的数据形式
data_train.isnull().sum()#查看缺失值
#查看缺失特征中缺失率大于50%的特征
columns_lost = []
columns = ['id', 'loanAmnt', 'term', 'interestRate', 'installment', 'grade',
       'subGrade', 'employmentTitle', 'employmentLength', 'homeOwnership',
       'annualIncome', 'verificationStatus', 'issueDate', 'isDefault',
       'purpose', 'postCode', 'regionCode', 'dti', 'delinquency_2years',
       'ficoRangeLow', 'ficoRangeHigh', 'openAcc', 'pubRec',
       'pubRecBankruptcies', 'revolBal', 'revolUtil', 'totalAcc',
       'initialListStatus', 'applicationType', 'earliesCreditLine', 'title',
       'policyCode', 'n0', 'n1', 'n2', 'n3', 'n4', 'n5', 'n6', 'n7', 'n8',
       'n9', 'n10', 'n11', 'n12', 'n13', 'n14']
for predictors in columns:
    lost_rate = data_train[predictors].isnull().sum()/len(data_train)
    print(lost_rate)
    if lost_rate>0.5:
        columns_lost.append(predictors)
        have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
    if value > 0.5:
        fea_null_moreThanHalf[key] = value
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值