金融风控训练营Task02学习笔记

本文详细介绍了数据科学工作流程的关键步骤,包括使用pandas加载数据、分析数据特性、检查缺失值,以及利用matplotlib和seaborn进行数据可视化。强调了数据可视化的价值,指出它能帮助提升对数据直觉的理解,并揭示不同尺度下数据的隐藏规律。对于存在大量缺失值的现实世界数据集,如何处理和分析显得尤为重要。
摘要由CSDN通过智能技术生成
一·学习知识点概要
  1. 导入数据
  2. 分析数据
    2.1 查看样本个数和数据维度、理解特征含义
    2.2 查看数据类型
  3. 查看数据
    3.1 查看数据各特征的基本统计量
    3.2 查看数据特征缺失值和唯一值
  4. 变量分析
    4.1 连续型变量分析
    4.2 非数值类别型变量分析
  5. 数据可视化
    5.1 单一变量分布可视化
    5.2 时间格式数据
    5.3 透视图
  6. 生成数据报告
二·学习内容
1. 导入数据
工具库:pandas
函数:read_csv 参数nrows:设置读取文件的前多少行
2. 分析数据
查看样本个数和特征维度
.shape
.columns:查看列
查看数据类型
.info():获得各特征的特征值的数据类型
3. 查看数据
工具库:matplotlib
查看数据各特征的基本统计量
.describe():统计量分别为count(数量)、mean(平均值)、std(标准差)、min(最小值)、四分位值、max(最大值)
.head():查看头部数据,参数为数字n,表示查看前几行
.tail():查看尾部数据,参数同理
查看数据特征缺失值和唯一值
.isnull():数据是否缺失
.any():判断给定的可迭代函数是否全为false,则返回false,如果有一个为True,则返回True
.sum():求和
.sort_values(inplace = True):给数据排序并代替原数据
4. 变量分析
工具库:seaborn
连续性变量分析
.melt():把宽数据变为长数据
.FacetGrid():提供画布
.map():绘图
5. 数据可视化
单一变量分布可视化
.barplot():绘制条形图
时间格式数据处理及查看
.to_datetime():转换为时间
.strptime():根据指定的格式把一个时间字符串解析为时间元组
.pivot_table():参数values指定变量
6. 生成数据报告
pandas_profiling
三·问题与解答

暂无

四·思考与总结

• 上面我们用value_counts()等函数看了特征属性的分布,但是图表是概括原始信息最便捷的方式。
• 数无形时少直觉。
• 同一份数据集,在不同的尺度刻画上显示出来的图形反映的规律是不一样的。python将数据转化成图表,但结论是否正确需要由你保证。
• 47列数据中有22列都缺少数据,这在现实世界中很正常。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ag+Cu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值