1. pandas简介
Pandas是基于Numpy的数据分析包,内核是Numpy
加粗样式 Pandas通常是用于数据分析过程中, 数据的清洗, 数据预处理, 数据的描述性分析等过程中.
在整个Python数据分析的生态环境中, Pandas的地位非常重要, 利用Pandas可以快速便捷的对数据进行各种各样的处理与操作.
Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。
在Pandas中, 最重要的两种数据结构是1维的Series和2维的DataFrame.
Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。
Series中能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。但是每个Series中只能保存一种数据结构.
DataFrame:二维的表格型数据结构。有多个Series共同构成的集合就变成DataFrame.
2. Series
Series 是一个带有 名称 和 索引 的一维数组 既然是数组,肯定要说到的就是数组中的元素类型,在 Series 中包含的数据类型可以是整数、浮点、字符串、Python对象等
2.1 Series创建
pandas.Serices(data,index,dtype,name,)
- data: 数据来源,可为数组,字典,可迭代类型和标量值
- index: 索引值
- dtype: 数据类型
- name: 值列名称
2.2 Series常用属性
- s.name #提取名称,可以直接赋值,修改原数据
- s.index # 提取索引,可以赋值,修改原数据,但数量要相等
- s.values # 提取值,不可直接赋值
- s.dtype # 提取数据类型,使用astype函数修改
- s.index.name # 索引名称,可以直接赋值,直接修改原数据
2.3 Serices索引和切片
1.按照字典方式索引: Serices[‘索引值’] 或Serices.get(‘索引值’,default)
2. 按照字典方式索引: 和列表索引和ndarray索引方式共通
3. 传入索引值的方式提取数据