阿里云天池金融风控训练营【task2 数据分析】学习笔记

这篇学习笔记详细记录了阿里云天池金融风控训练营Task2的数据分析过程,包括了解数据集、数据清洗、特征工程的准备以及数据可视化。主要使用Python相关库进行数据探索,涉及数据的缺失值、唯一值分析,以及特征与目标变量的关系研究。通过pandas和seaborn等工具进行数据统计和图形展示,以助于理解数据并为后续的机器学习建模打下基础。
摘要由CSDN通过智能技术生成

金融风控训练营 Task2 数据分析 学习笔记

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampfr

一、学习知识点概要

二、学习内容

1. 目的
  1. EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.

  2. 了解变量间的相互关系、变量与预测值之间的存在关系。

  3. 为特征工程做准备

2. 内容介绍
  • 数据总体了解:
    • 读取数据集并了解数据集大小,原始特征维度;
    • 通过info熟悉数据类型;
    • 粗略查看数据集中各特征基本统计量;
  • 缺失值和唯一值:
    • 查看数据缺失值情况
    • 查看唯一值特征情况
  • 深入数据-查看数据类型
    • 类别型数据
    • 数值型数据
      • 离散数值型数据
      • 连续数值型数据
  • 数据间相关关系
    • 特征和特征之间关系
    • 特征和目标变量之间关系
  • 用pandas_profiling生成数据报告
3. 代码示例
1. 数据分析及可视化需要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns #基于matplotlib的图形可视化包
import datetime #处理日期和时间
import warnings
warnings.filterwarnings('ignore')

import warnings warnings.filterwarnings('ignore')

部分代码正常运行,但会提示警告,使用警告过滤器进行控制是否输出警告消息(上述代码表示忽略警告消息)

warnings.filterwarnings(action, 
						message='', #包含正则表达式的字符串,警告消息的开始必须匹配,不区分大小写
						category=Warning, #警告类型
						module='', #包含模块名称的正则表达式字符串
						lineno=0, #警告发生的行号,为 0 则匹配所有行号
						append=False) #为真时,在末尾插入

其中action:

处理方式
“error” 将匹配警告转换为异常
“ignore” 忽略匹配的警告
“always” 始终输出匹配的警告
“default” 对于同样的警告只输出第一次出现的警告
“module” 在一个模块中只输出第一次出现的警告
“once” 输出第一次出现的警告,而不考虑它们的位置
2. 具体操作步骤
  1. 读取 pd.read_csv() ,查看表格

    data_train_sample = pd.read_csv("train.csv",nrows=5)  #nrows设置可以读取文件的前几行
    data_train_sample.head()   #xx.head()是读取前五行,如果nrows<5,则只会显示nrows行
    

    如果相对路径载入报错时,使用os.getcwd() 查看当前工作目录

    import os
    os.getcwd()
    

    分块读取

    #设置chunksize参数,来控制每次迭代数据的大小
    i = 0  #控制输出
    chunker = pd
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值