说明:这是第一次参加比赛,成绩不理想,高手勿喷。。。
比赛链接:点这里
一、赛题解读
1、任务
2、数据
3、评分标准
4、解决任务方法
通过分析数据标签可以知道这是一个不平衡样本的分类问题,对于这类问题,可以从以下方法对任务进行处理:
(1)建立分类模型,处理不平衡数据,然后分类
(2)将分类问题转为异常值检测问题
二、代码详解
1、数据处理
1.1 数据探索
1.1.1 数据标签的分析
(1)导入相关的包以及读取数据
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore') #忽略警告
%matplotlib inline
pd.set_option('display.max_columns',None) #显示所有特征
import time,datetime
test_df=pd.read_csv(r'C:\Users\Chen\数据挖掘比赛\厦门国际银行“数创金融杯”\data\test.csv')
train_df=pd.read_csv(r'C:\Users\Chen\数据挖掘比赛\厦门国际银行“数创金融杯”\data\train.csv')
target_df=pd.read_csv(r"C:\Users\Chen\数据挖掘比赛\厦门国际银行“数创金融杯”\data\train_target.csv")
y=target_df['target']
submit_id=test_df['id']
(2)查看标签数据
labels=target_df['target'].value_counts()
print(labels)
print("标签0所占样本的比例:",target_df.loc[target_df['target']==0].count()/len(target_df))
print('标签1所占样本的比例:',target_df.loc[target_df['target']==1].count()/len(target