两个常用的类,Series、DataFrame
Series Series是一种类似于一位数组的对象,由下面两个部分组成
values:一组数据
index:相关的数据索引标签
Series的创建 由列表或numpy数组创建 由字典创建
from pandas import Series
#由列表创建
s = Series(data=[1,2,3,'four'])
#由numoy一维数组创建
import numpy as np
s = Series(data=np.random.randint(0,100,size=(6,)))
#index用来指定显示索引,显示索引可以增强Series的可读性
s = Series(data=[1,2,3,'four'],index=['a','b','c','d'])
#由字典创建
dic = {
'语文':100,
'数学':99,
'理综':250
}
s = Series(data=dic)
Series的索引和切片
Series的常用属性 shape size index values
s.shape
s.size
s.index#返回索引
s.values#返回值
s.dtype
Series的常用方法 head() tail() unique() isnull() notnull() add() sub() mul() div()
s = Series(data=np.random.randint(0,100,size=(9,)))
s.head(3)#显示前n个数据
s.tail(3)#显示后n个数据
s.unique()#去重
s.isnull()#用于判断每一个元素是否为空,为空返回True,否则返回False
s.notnull()
Series的算术运算
法则:索引一致的元素进行算数运算否则为补空
DataFrame
DataFrame是一个【表格型】的数据结构
DataFrame由按一定顺序列的多列数据组成
设计初衷是将Series的使用场景总一维拓展到多维
DataFrame既有行索引,也有列索引 行索引:index 列索引:columns 值:values
DataFrame的创建 ndarray创建 字典创建
from pandas import DataFrame
df = DataFrame(data=[[1,2,3],[4,5,6]])
df = DataFrame(data=np.random.randint(0,100,size=(6,4)))
dic = {
'name':['zhangsan','lisi','wanglaowu'],
'salary':[1000,2000,3000]
}
df = DataFrame(data=dic)
DataFrame的属性 values、columns、index、shape
DataFrame的索引操作 对行进行索引 对列进行索引 对元素进行索引
df = DataFrame(data=np.random.randint(0,100,size=(8,4)),columns=['a','b','c','d'])
df['a']#取单列,如果df有显示的索引,通过索引机制取行或者列的时候只可以使用显示索引
df[['a','c']]#取多列
#iloc通过隐示索引取行 loc通过显示索引取行
df.iloc[0]#取单行
df.iloc[[0,1,2]]#取多行
df.iloc[0,3]#取单个元素
df.loc[0,'a']
df.iloc[[1,3,5],2]#取多个元素
DataFrame的切片操作 对行进行切片 对列进行切片
df[0:2]#切行
df.iloc[:,0:2]#切列
DataFrame的运算和Series一样
time的类型转化
dic = {
'time':['2010-10-10','2011-11-20','2020-01-10'],
'temp':[33,31,30]
}
df = DataFrame(data=dic)
#查看time列的类型
df['time'].dtype
#将time转化为时间类型
import pandas as pd
df['time'] = pd.to_datetime(df['time'])
#将time列作为源数据的行索引,inplace=True替换源数据
df.set_index('time',inplace=True)