利用python进行数据分析—五、pandas入门

这篇博客介绍了pandas的基础知识,包括Series和DataFrame数据结构,如何进行数据选择、过滤,以及算术操作和数据对齐。还讨论了如何进行数据重塑、排序和统计分析,如相关性、唯一值计算。
摘要由CSDN通过智能技术生成

引言

  pandas是用来处理表格型或异质型(异质性就是说研究的样本的重要属性上存在差异)数据的,常用于数据清洗与分析。pandas常与Numpy和Scipy以及数据可视化工具matplotlib一起使用。

5.1pandas数据结构介绍

  pandas有两种常用的数据结构:Series和DataFrame

5.1.1Series

  Series是一维的数组型对象,包括一个值序列与索引。

values属性和index属性获得Series对象的值与索引

在这里插入图片描述
  使用字典生成一个Series,当你把字典传给Series函数时,产生的Series索引将是排序好的字典键。
在这里插入图片描述
  pandas使用isnull和notnull函数来检查缺失数据
在这里插入图片描述
  自动对齐索引
在这里插入图片描述
  Series对象自身与索引都有name属性
在这里插入图片描述
  Series的索引可以通过按位置赋值的方式进行改变
在这里插入图片描述

5.1.2DataFrame

  DataFrame既有行索引,又有列索引。尽管DataFrame是二维的,但是可以利用分层索引在DataFrame中展示更高维度的数据。
  构建DataFrame的最常用方式:利用包含等长度列表或者Numpy数组的字典来形成DataFrame
在这里插入图片描述
  DataFrame指定列顺序
在这里插入图片描述
  传的列不在字典中,将会在结果中出现缺失值

columns参数指定列索引
index参数指定行索引
同时,DataFrame也有columns与index属性

在这里插入图片描述
  通过索引返回指定列,返回类型为Series,返回的Series与原DataFrame有相同的索引
在这里插入图片描述
  使用loc访问行,iloc针对默认的数字索引(位置)
在这里插入图片描述
  当将列表或

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值