Pandas 是非常著名的开源数据处理库,其基于 NumPy 开发,该工具是 Scipy 生态中为了解决数据分析任务而设计。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的函数和方法。本文是学习相关课程之后,做的些许笔记。😀😀😀
Pandas数据类型
pandas主要数据类型
//主要使用
Series(一维数组)
DataFrame(二维数组)
//次要使用
Panel(三维数组)
Panel4D(四维数组)
PanelND(更多维数组)
导入pandas库
%matplotlib inline
import pandas as pd
创建Pandas基本数据结构
Series
pandas.Series(data=None, index=None)
//数据只有列索引
//data 可以是字典,或者NumPy 里的 ndarray 对象
//index 是数据索引,索引是Pandas数据结构中的一大特性,它主要的功能是帮助我们更快速地定位数据
示例:
//通过字典创建series结构
a=pd.Series({
'x':6,'y':66,'z':666})
结果:
x 6
y 66
z 666
dtype: int64 //此处默认为int64数据类型
//通过ndarray对象创建series结构
示例:
a=pd.Series(np.random.randint(1,6,6))
结果:
0 2
1 5
2 1
3 4
4 5
5 4
dtype: int64
DataFrame
//数据不但具有行索引,且具有列索引。
pandas.DataFrame(data=None, index=None, columns=None)
//一维数组、列表、字典或者 Series 字典。
示例1:Series 字典。
a=pd.DataFrame({
'x':pd.Series((1,2,3)),'y':pd.Series((4,5,6))})
结果:
x y
0 1 4
1 2 5