一.准备
准备工作:我们需要装好pandas库,然后引入它,一般简写为pd
import pandas as pd
二.基本操作
1)生成一个表格
方法一:pd.DataFrame() #三个参数,第一个为填入的值,第二个index为表格的行标,第三个columns为表格的列标。第二三个参数如果不填则默认从0开始一直排下去。
#方法一直接使用np
df = pd.DataFrame(np.arange(12).reshape((3,4)),columns=['a','b','c','d']) #index表示列标,columns表示行标
a b c d
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
方法二:可以使用字典生成表格
#方法二可以导入字典,键表示列标,值表示这一列对应的所有值
df1 = pd.DataFrame({'A':1.,
'B':pd.Timestamp('20210129'),
'C':pd.Series(1,index=list(range(4)),dtype='float32'),
'D':np.array([3]*4,'int32'),
'E':'foo'})
A B C D E
0 1.0 2021-01-29 1.0 3 foo
1 1.0 2021-01-29 1.0 3 foo
2 1.0 2021-01-29 1.0 3 foo
3 1.0 2021-01-29 1.0 3 foo
2)操作函数
#生成从20210129开始显示时间的六个字符串
dates = pd.date_range('20210129',periods=6)
操作函数 | 作用 |
---|---|
df.index | 返回表格df的行标 |
df.columns | 返回表格df的列标 |
df.values | 返回表格df的值 |
df.dtypes | 返回表格df每列的类型 |
df.T | 转置表格df |
注意: df是一个实例
3)describe()
df1.describe() #对有数据的那几列进行描述,求得其平均值,最大最小值等等
A C D
count 4.0 4.0 4.0
mean 1.0 1.0 3.0
std 0.0 0.0 0.0
min 1.0 1.0 3.0
25% 1.0 1.0 3.0
50% 1.0 1.0 3.0
75% 1.0 1.0 3.0
max 1.0 1.0 3.0
4)其他函数
#排序,axis为1对列标进行排序,0对行标进行排序,ascending为True为正序,若为False则为倒序
df1.sort_index(axis=1,ascending = False)
#对指定的一列数值进行排序
df1.sort_values(by='A')