金融风控训练营-Task02-数据分析学习笔记

本文详细介绍了在金融风控训练营中学习的数据分析步骤,包括读取csv和tsv文件、数据概览、缺失值处理、特征类型检查、数据可视化和使用pandas_profiling生成数据报告。强调了EDA阶段对数据理解的重要性,特别是处理缺失值和异常值,提取特征向量,并通过可视化工具增强数据洞察。
摘要由CSDN通过智能技术生成

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdocker

一、学习知识点概要

Task02-数据分析介绍了对数据的初步认识和分析,通过数字和图形可视化的形式显示数据

二、学习内容

1.读取数据文件

csv和tsv文件:

import pandas as pd
csv_data = pd.read_csv('csv_data')   #读取csv文件
tsv_data = ps.read_csv('tsv_data',sep='\t')   #读取tsv文件

大文件:

读取前n行:nrows=n

分块读取:chunksize=n(n指每次迭代数据的大小)

2.了解总体数据

shape:数据的行列数

info():数据类型

column:数据的属性

describe():显示数据的个数、平均值、标准差、最小值、下四分位、中位数、上四分位、最大值

head(n):前n行数据

tail(n):后n行数据

3.判断缺失值

data_train.isnull().any().sum()    判断有缺失值的列数

data_train.isnull()   判断元素的缺失值

纵向比较:如果某个特征属性的缺失值大于50%,考虑删除;如果缺失值很小,考虑填充。

横向比较:如果某行数据的缺失值过多且样本数据充足,考虑删除。

lgb模型可以自动处理缺失值。

nunique():查看特征属性是否有一值的特性,可能是全部为缺失值。

4.查看特征的数据类型

  • 类别型特征(过滤)
  • 数值关系
  • 非数值关系
  • 数值型特征(往往需要做特征分箱)
  • 连续型
  • 离散型
DataFrame.select_dtypes(include=None, exclude=None)
value_counts()  某特征列中不同值的个数,不同值的重复值个数

正态化数据,直接查看变量是否符合正态分布/log化;

统一处理一批数据标准化,必须把已经正态化的数据剔除

5.特征数据可视化

6.用pandas_profiling生成数据报告

pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html")

 

三、学习问题与解答

pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html")   #每次运行这一步服务器就会断开连接

 

四、学习思考与总结

EDA阶段是初步了解数据的重要阶段,主要处理数据的缺失值和异常值,提取对模型有价值的特征向量,对数据进行可视化。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值