pandas可用于处理非数值型数据
常用类:
series——类似一维数组,可有各种类型 ,series算术运算会补空
values 数据可以是列表,np,字典
index 显示索引用来增强可读性
dataframe——表格形式
切片:
df[index1:index2]
df.iloc[:,col1:col3]
索引:
df[col]
df.loc[index]
df.iloc[index,col]
时间类型转换:
pd.to_datetime(col)
将某列设为行索引
df.set_index()
loc与iloc的区别:
iloc:通过隐式索引取行,返回标题外的行
loc:通过显示索引取行
import numpy as np
s=Series(data=np.random.randint(60,100,size=(10,)))
s.head() #显示前5行数据
s.tail()
s.unique()
s.isnull()
df=DataFrame(data=np.random.randint(60,100,size=(8,4)),columns=['a','b','c','d'])
df
df['a'] #取单列,根据索引
df[['a','c']] #取多列
df.iloc[[1,3,5],2] #取出3行2列值
dic={
'time':['2010-10-10','2011-11-20','2020-01-10'],
'temp':[33,31,30]
}
df=DataFrame(data=dic)
df
df['time']=pd.to_datetime(df['time'])
df
df.set_index('time',inplace=True)
df