文章目录
引言
pandas是用来处理表格型或异质型(异质性就是说研究的样本的重要属性上存在差异)数据的,常用于数据清洗与分析。pandas常与Numpy和Scipy以及数据可视化工具matplotlib一起使用。
5.1pandas数据结构介绍
pandas有两种常用的数据结构:Series和DataFrame
5.1.1Series
Series是一维的数组型对象,包括一个值序列与索引。
values属性和index属性获得Series对象的值与索引
使用字典生成一个Series,当你把字典传给Series函数时,产生的Series索引将是排序好的字典键。
pandas使用isnull和notnull函数来检查缺失数据
自动对齐索引
Series对象自身与索引都有name属性
Series的索引可以通过按位置赋值的方式进行改变
5.1.2DataFrame
DataFrame既有行索引,又有列索引。尽管DataFrame是二维的,但是可以利用分层索引在DataFrame中展示更高维度的数据。
构建DataFrame的最常用方式:利用包含等长度列表或者Numpy数组的字典来形成DataFrame
DataFrame指定列顺序
传的列不在字典中,将会在结果中出现缺失值
columns参数指定列索引
index参数指定行索引
同时,DataFrame也有columns与index属性
通过索引返回指定列,返回类型为Series,返回的Series与原DataFrame有相同的索引
使用loc访问行,iloc针对默认的数字索引(位置)
当将列表或