金融风控训练营-Task02-数据分析学习笔记

最新推荐文章于 2021-04-25 22:22:22 发布

小酒儿_

最新推荐文章于 2021-04-25 22:22:22 发布

阅读量141

点赞数

本文链接：https://blog.csdn.net/weixin_45731258/article/details/116099388

版权

本文详细介绍了在金融风控训练营中学习的数据分析步骤，包括读取csv和tsv文件、数据概览、缺失值处理、特征类型检查、数据可视化和使用pandas_profiling生成数据报告。强调了EDA阶段对数据理解的重要性，特别是处理缺失值和异常值，提取特征向量，并通过可视化工具增强数据洞察。

摘要由CSDN通过智能技术生成

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容，学习链接为：https://tianchi.aliyun.com/specials/activity/promotion/aicampdocker

一、学习知识点概要

Task02-数据分析介绍了对数据的初步认识和分析，通过数字和图形可视化的形式显示数据

1.读取数据文件

csv和tsv文件：

import pandas as pd
csv_data = pd.read_csv('csv_data')   #读取csv文件
tsv_data = ps.read_csv('tsv_data',sep='\t')   #读取tsv文件

大文件：

读取前n行：nrows=n

分块读取：chunksize=n（n指每次迭代数据的大小）

2.了解总体数据

shape：数据的行列数

info()：数据类型

column：数据的属性

describe()：显示数据的个数、平均值、标准差、最小值、下四分位、中位数、上四分位、最大值

head(n)：前n行数据

tail(n)：后n行数据

3.判断缺失值

data_train.isnull().any().sum() 判断有缺失值的列数

data_train.isnull() 判断元素的缺失值

纵向比较：如果某个特征属性的缺失值大于50%，考虑删除；如果缺失值很小，考虑填充。

横向比较：如果某行数据的缺失值过多且样本数据充足，考虑删除。

lgb模型可以自动处理缺失值。

nunique()：查看特征属性是否有一值的特性，可能是全部为缺失值。

4.查看特征的数据类型

DataFrame.select_dtypes(include=None, exclude=None)
value_counts()  某特征列中不同值的个数，不同值的重复值个数

正态化数据，直接查看变量是否符合正态分布/log化；

统一处理一批数据标准化，必须把已经正态化的数据剔除

5.特征数据可视化

6.用pandas_profiling生成数据报告

pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html")

pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html") #每次运行这一步服务器就会断开连接

EDA阶段是初步了解数据的重要阶段，主要处理数据的缺失值和异常值，提取对模型有价值的特征向量，对数据进行可视化。

关注