Pandas的数据结构
Pandas包含以下三种数据结构:系列(Series),数据帧(DataFrame),面板(Panel)。
这些数据结构构建在Numpy数组之上,这意味着它们处理速度很快。
Series:
同种类型数据构成
大小不可变
数据可变
Series:一维数组,与Numpy中的一维array类似,二者与Python基本的数据结构List也很相近。
Series能保存不同种数据类型,字符串、boolean值、数字等。
Series是由相同数据类型组成的一维数组。
DataFrame:
可以由不同的数据类型构成
大小可变
数据可变
DataFrame:二维的表格型数据结构,很多功能与R中的data.frame类似,可以将DataFrame理解为Series的容器。
数据帧(DataFrame)是大小可变的数据结构,每列可以是不同的数据类型(整型、字符串、布尔值等)。
Panel :
可以由不同的数据类型构成
大小可变
数据可变
Panel :三维数组,可以理解为DataFrame的容器。
面板(Panel)可以由不同的数据类型构成的三维数据结构。
Panel是DataFrame的容器。
导包
import pandas as pd
import numpy as np
创建Series
'''
pd.Series(data,index,dtype,copy):
data:数据,可以是序列类型,可以是int
index:索引值必须是唯一的,与data的长度相同,默认为np.arange(n)
dtype:数据类型
copy:是否复制数据,默认为false
打印最左侧为索引,右侧为数据
'''
a=np.array([1,2,3,4,5])
s1=pd.Series(a,index=['a','b','c','d','e'],dtype=np.float32,copy=False)
print(s1)
'''
a 1.0
b 2.0
c 3.0
d 4.0
e 5.0
'''
修改数据
print("-------------------")
s1['a']=100
print(s1)
print(a)
'''
a 100.0
b 2.0
c 3.0
d 4.0
e 5.0
dtype: float32
[1 2 3 4 5]#去掉数据类型就会改变[100 2 3 4 5]
'''
'''
copy=true 数据data不会改变,数据S1会改变
copy=false 数据会改变,数据S1会改变
'''
字典创建Series
#字典= {k:v} k:在Series中是index
d1 = {
'zs':18,'ls':20}
s2=pd.Series(d1)
print(s2)
print(s2['zs'])#18
'''
zs 18
ls 20
dtype: int64
'''
查询
'''
语法:s1[index] 获取单个数据
s1[list] 获取索引中的数据
s1[index1:index2] 获取从第一个索引到第二个索引的数据,左开右闭
数字索引是左开右闭,标签索引是左开右开
'''
#可以使用默认索引’, 也可以使用自定义索引
d1 = {
'zs':18,'ls':20,'ww':40,'gl':20}
s1=pd.Series(d1)
print(s1['zs'])#使用自定义索引 18
print(s1[0])#使用默认索引 18
print(s1[0:3])#左开右闭
'''
zs 18
ls 20
ww 40
dtype: int64
'''
print(s1[[0,2,3]])
print(s1['zs':'gl'])#左开右开
'''
zs 18
ww 40
gl 20
dtype: int64
--------------------
zs 18
ls 20
ww 40
gl 20
dtype: int64
'''
常用方法
axes | 返回Series索引列表 |
---|---|
dtype | 返回Series的数据类型 |
emtpy | 判断Series是否为空,如果为空,则返回True |
values | 将Series作为ndarray返回 |
ndim | 返回基础数据的维度数,默认为1 |
size | 返回基础数据中的元素个数 |
-head()- | -返回前n行(观察索引值)。默认数量为5,可以传递自定义数值- |
tail() | 返回最后n行 (观察索引值)。默认数量为5,可以传递自定义数值 |
#可以使用默认索引,也可以使用自定义索引
d1 = {
'zs':18,'ls':20,'ww':40,'gl':20}
s1 = pd.Series(d1)
print(s1.axes)
print(s1.dtype)
print(s1.empty)
print(s1.ndim)
print(s1.size)
print(s1.values)
print(s1.head(3))
print(s1.tail(3))
'''
'''
zs 18
ls 20
dtype: int64
18
[Index(['zs', 'ls', 'ww', 'gl'], dtype='object')]
int64
False
1
4
[18 20 40 20]
zs 18
ls 20
ww 40
dtype: int64
ls 20
ww 40
gl 20
dtype: int64
'''
创建DataFrame
'''
pandas.DataFrame(data,index,columns,dtype,copy)
data 支持多种数据类型 如:ndarray,series,map,lists,dict,
index 行标签,如果没有传递索引值,默认值为0,1,2,3,4
columns 列标签,如果没有传递索引值,默认值为0,1,2,3,4
dtype 每列的数据类型
copy 是否复制数据,默认值为false
'''
#数组创建
np01 = np.arange(20).reshape(4,5)
df1=pd.DataFrame(np01,index=['a','b','c','d'],\
columns=['name','age','sex','hobbit','address'],dtype = np.float32)
print(df1)
'''
name age sex hobbit address
a 0.0 1.0 2.0 3.0 4.0
b 5.0 6.0 7.0 8.0 9.0
c 10.0 11.0 12.0 13.0 14.0
d 15.0 16.0 17.0 18.0 19.0
'''
#列表创建
x = [1,<