Task 2 数据的探索性分析（EDA）

最新推荐文章于 2020-08-08 22:02:17 发布

代码款款

最新推荐文章于 2020-08-08 22:02:17 发布

阅读量206

点赞数

分类专栏： # 竞赛实践

本文链接：https://blog.csdn.net/yifen4234/article/details/105080596

版权

竞赛实践专栏收录该内容

5 篇文章 0 订阅

订阅专栏

任务要求

参赛指南
 历史比赛资料沉淀

EDA目标

在这里插入图片描述

EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。
引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。
完成对于数据的探索性分析，并对于数据进行一些图表或者文字总结并打卡。

内容介绍

代码示例

想要系统学习一下，现在开始总结一下代码片，持续更新。
只是跟着零基础数据入门的pdf在试，感觉好蠢哈哈哈
最近在忙论文和项目申请的事情，事情太多了！没有好好写博客我反省！特别是看到队长的笔记感觉无地自容 T.T ！！
直播上传了，我继续跟着学！

载入各种数据科学以及可视化库

# Step 1:导入函数工具箱
import numpy as np
import pandas as pd
import warnings
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.special import jn
from IPython.display import display, clear_output
import time
warnings.filterwarnings('ignore')
%matplotlib inline

## 模型预测的
from sklearn import linear_model
from sklearn import preprocessing
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor

## 数据降维处理的
from sklearn.decomposition import PCA,FastICA,FactorAnalysis,SparsePCA
import lightgbm as lgb
import xgboost as xgb

## 参数搜索和评价的
from sklearn.model_selection import GridSearchCV,cross_val_score,StratifiedKFold,train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error

载入数据

# Step 2:数据读取
## 通过Pandas对于数据进行读取 (pandas是一个很友好的数据读取函数库)
train_data = pd.read_csv('datalab/used_car_train_20200313.csv', sep=' ')
testA_data = pd.read_csv('datalab/used_car_testA_20200313.csv', sep=' ')
## 输出数据的大小信息
print('Train data shape:',train_data.shape)
print('TestA data shape:',testA_data.shape)