厦门国际银行”数创金融杯“比赛思路及总结

最新推荐文章于 2023-01-02 16:58:22 发布

我不拽世界怎麼精彩

最新推荐文章于 2023-01-02 16:58:22 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/weixin_44034053/article/details/102995908

版权

本文记录了作者首次参加厦门国际银行的数创金融杯比赛的心路历程，详细解读了赛题，指出这是一个不平衡样本的分类问题。在数据处理部分，探讨了数据标签分析、特征分析，包括离散变量的贷款类型和连续变量年龄的处理。尽管成绩不理想，但作者从中积累了宝贵的经验。

摘要由CSDN通过智能技术生成

说明：这是第一次参加比赛，成绩不理想，高手勿喷。。。

在这里插入图片描述
比赛链接：点这里

一、赛题解读

1、任务

在这里插入图片描述

2、数据

在这里插入图片描述

3、评分标准

在这里插入图片描述

4、解决任务方法

通过分析数据标签可以知道这是一个不平衡样本的分类问题，对于这类问题，可以从以下方法对任务进行处理：
（1）建立分类模型，处理不平衡数据，然后分类
（2）将分类问题转为异常值检测问题

二、代码详解

1、数据处理

1.1 数据探索

1.1.1 数据标签的分析

(1)导入相关的包以及读取数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings  
warnings.filterwarnings('ignore')  #忽略警告
%matplotlib inline
pd.set_option('display.max_columns',None)  #显示所有特征
import time,datetime

test_df=pd.read_csv(r'C:\Users\Chen\数据挖掘比赛\厦门国际银行“数创金融杯”\data\test.csv')
train_df=pd.read_csv(r'C:\Users\Chen\数据挖掘比赛\厦门国际银行“数创金融杯”\data\train.csv')
target_df=pd.read_csv(r"C:\Users\Chen\数据挖掘比赛\厦门国际银行“数创金融杯”\data\train_target.csv")
y=target_df['target']
submit_id=test_df['id']

(2)查看标签数据

labels=target_df['target'].value_counts()
print(labels)
print("标签0所占样本的比例：",target_df.loc[target_df['target']==0].count()/len(target_df))
print('标签1所占样本的比例：',target_df.loc[target_df['target']==1].count()/len(target

最低0.47元/天解锁文章

我不拽世界怎麼精彩

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
厦门国际银行”数创金融杯“比赛思路及总结

说明：这是第一次参加比赛，成绩不理想，高手勿喷。。。比赛链接：点这里一、赛题解读1、任务2、数据3、评分标准4、解决任务方法通过分析数据标签可以知道这是一个不平衡样本的分类问题，对于这类问题，可以从以下方法对任务进行处理：（1）建立分类模型，处理不平衡数据，然后分类（2）将分类问题转为异常值检测问题二、代码详解1、数据处理1.1 数据探索1.1.1 数据标签的分析...
复制链接

扫一扫