实战人品预测之一_国内大数据竞赛平台

最新推荐文章于 2024-01-12 20:59:14 发布

xieyan0811

最新推荐文章于 2024-01-12 20:59:14 发布

阅读量1.3k

点赞数

分类专栏：算法实战文章标签： DataCastle python xgboost 数据挖掘

本文链接：https://blog.csdn.net/xieyan0811/article/details/78724125

版权

算法实战专栏收录该内容

28 篇文章 7 订阅

订阅专栏

1. 竞赛平台哪家强

Kaggle是一个很好的竞赛平台，上面大牛很多，代码分享和思路讲解也很棒，但是它的用户信息和数据全都存在google服务器上，虽然网页能看到，但上传下载数据需要连外网，从当前的网络情况看来，只能用VPN，用起来实在太麻烦了。
国内的大数据竞赛平台，DataCastle和天池也不错，也有奖金。比赛结果后，排名靠前参加答辩的选手会将答辩PPT分享出来，有时也会分享代码。相对来说天池的数据包含丰富的业务场景，更粘近现实情况，有的比赛还提供在计算平台。
天池和Kaggle都有数据科学家的排行榜，以提供展示实力的途径。

2. 选择竞赛

从时效来看，建议一开始先选择参赛队多的往期题目，最好是获胜者提供了源代的。很多比赛在结束之后仍开放提交代码并提供线上评分（没有奖金），这样边做边学，速度更快，也不会陷入某个比赛无法自拔。
从难易来看，建议从简单的开始，如果影响因素太多，难以判别哪里出了问题。最好一开始选择纯数据的。

3. 典型问题

我觉得在实践的过程中，有几类典型问题是需要常试的：
(1) 以xgboost为代表的数据挖掘问题
(2) 自然语言处理相关的问题
(3) 图像处理相关的问题
(4) 关联规则相关问题
(5) 时序相关问题
本篇中的例子是DataCastle平台的“微额借款用户人品预测大赛”，属于xgboost问题，详见：
http://www.pkbigdata.com/common/cmpt/微额借款用户人品预测大赛_竞赛信息.html

4. 人品预测项目

(1) 描述

比赛的主题是通过数据挖掘来分析”小额微贷“申请借款用户的信用状况。提供的特征以x1,x2…表示，也就是说不知道各特征的具体意义。共1400个特征，带标签数据15000个，不带标签数据50000个，最终需要对5000个数据进行预测，上传预测结果，得到线上的AUC评分。
该题目就属于：数据不多且干净，参赛队近3000支，冠军使用的算法是数据大赛最常用xgboost，他还提供了答辩报告书和源码。

(2) 比赛结果

从排行榜看，除第一名最高得分是0.77209，第二名0.76289之外，前400名分数都在0.7-0.735之间。当然这也可能是由于冠军分享了他在比赛中最高得分0.7341的代码，一些人后期使用了他的代码得到了高分。

5. 人品预测初体验

(1) 随便找个模型

第一步下载所有数据，扫了一眼文件格式，随便找个模型，代进去，预测之后上传服务器，以熟悉基本流程。因为是个分类问题，所以随便用了逻辑回归模型。

import pandas as pd
from sklearn.linear_model import LogisticRegression

train_x = pd.read_csv("train_x.csv")
train_y = pd.read_csv("train_y.csv")

train_x = train_x.drop('uid', axis=1)
train_y = train_y.drop('uid', axis=1)
print(len(train_x), len(train_y))

logreg = LogisticRegression()
logreg.fit(train_x, train_y)
print(logreg.score(train_x, train_y))

test_output = pd.DataFrame()
test_x = pd.read_csv("input/test_x.csv")
test_output["uid"] = test_x['uid'] 
test_x = test_x.drop('uid', axis=1)
test_y = logreg.predict_proba(test_x)
test_output["score"] = test_y[:,1]
print(test_output[:10])

test_output.to_csv('input/test_y.csv', index=False)

看了一下，本地得分0.898xxx，觉得还不错，上传之后，在线得分0.51xxx，这得分和瞎蒙差不多。看了一下数据才发现，正反例数据比例不一致，正例占比0.8982，汗……不过好歹跑通了。

(2) 尝试优化

i. 本地得分与在线得分
得分差异主要是正反例数据比例不一致引起的，它使得本地得分没什么参考价值，因为做得再差也能得到0.89左右的评分，而改进一点并不明显。
面对这种情况，比较简单的方法就是使正反例个数相同，为了不损失数据，我使用了重复加反例的方法，处理之后本地评分和线上评分就比较接近了。（有的模型支持roc_auc，直接设置也可以）

ii. 分开训练集和测试集
把带标签数据分成9:1，分别用于fit和score。因为之前加了反例，切分时需要先打乱顺序，避免反例都被分入了测试集。这样结果看起来，就正常多了。

iii. 尝试多个模型
尽管知道最终会使用xgboost，还是尝试了几个分类模型，发现有的模型本地得分是1.0，因为没分开训练和测试集，发生了过拟合，继续汗……
试了几种简单的树模型，得分比较高的是ExtraTreeClassifier()。树最重要的是限制过拟合，比如用min_samples_split或max_depth限制分支条件和树深。

iv. 尝试降维
1400个特征实在太多了，用50000个无标注数据计算PCA降维，观察数据降维后，前15维占有效数据的0.9999以上，所以使用PCA将1400维数据降到15维，再使用模型分类，效果变差很多，根本没法用。不过我觉得当特征特别多的时候，还是可以做PCA，然后用特征值最大数据做散点图分析数据。有助于选择分类器。
估计可能是缺失数据太多影响了PCA效果，于是尝试了SelectPercentile缩减特征值，它的原理是根据自变量和因变量的相关性降维，当缩特征数减到50%时，线上得分差别0.001以下，当缩减到10%时，正确率只有一半。

v. 缺失数据
观察了一下数据，很多-1值，我试用均值mean填充了一下，效果不好，线上得分还下降了，估计是有的列缺失值太多引起的。