厦门国际银行”数创金融杯“比赛思路及总结

本文记录了作者首次参加厦门国际银行的数创金融杯比赛的心路历程,详细解读了赛题,指出这是一个不平衡样本的分类问题。在数据处理部分,探讨了数据标签分析、特征分析,包括离散变量的贷款类型和连续变量年龄的处理。尽管成绩不理想,但作者从中积累了宝贵的经验。
摘要由CSDN通过智能技术生成

说明:这是第一次参加比赛,成绩不理想,高手勿喷。。。

在这里插入图片描述
比赛链接:点这里

一、赛题解读

1、任务

在这里插入图片描述

2、数据

在这里插入图片描述

3、评分标准

在这里插入图片描述

4、解决任务方法

通过分析数据标签可以知道这是一个不平衡样本的分类问题,对于这类问题,可以从以下方法对任务进行处理:
(1)建立分类模型,处理不平衡数据,然后分类
(2)将分类问题转为异常值检测问题

二、代码详解

1、数据处理

1.1 数据探索

1.1.1 数据标签的分析

(1)导入相关的包以及读取数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings  
warnings.filterwarnings('ignore')  #忽略警告
%matplotlib inline
pd.set_option('display.max_columns',None)  #显示所有特征
import time,datetime

test_df=pd.read_csv(r'C:\Users\Chen\数据挖掘比赛\厦门国际银行“数创金融杯”\data\test.csv')
train_df=pd.read_csv(r'C:\Users\Chen\数据挖掘比赛\厦门国际银行“数创金融杯”\data\train.csv')
target_df=pd.read_csv(r"C:\Users\Chen\数据挖掘比赛\厦门国际银行“数创金融杯”\data\train_target.csv")
y=target_df['target']
submit_id=test_df['id']

(2)查看标签数据

labels=target_df['target'].value_counts()
print(labels)
print("标签0所占样本的比例:",target_df.loc[target_df['target']==0].count()/len(target_df))
print('标签1所占样本的比例:',target_df.loc[target_df['target']==1].count()/len(target
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值