一、导入pandas包
两种方式,一般用第一种就行了:
import pandas as pd 此种方式导入的话,是通过pd来调用pandas的自带方法
from pandas import * 此种方式导入的话,可以直接调用pandas的一些方法
import pandas as pd
import numpy as np
二、导入数据
通过pd.read_csv()或pd.read_excel()来导入csv或xlsx文件,导入时默认将第一行的标题作为dataframe的标题。
table=pd.read_excel('435_1.xlsx') #这一步可能需要10秒:DataFrame
table.head(3) #通过head()方法来查看表格的前几行,默认是前5行。数据最左侧的数字是这一行数据的索引(index),索引根据需要是可以更改的。
三、数据查找
3.1 选择表格的哪几行
table[1:4]#选择表格的第2到第4条数据(1和4是左闭右开)
table[-3:-1] #选择的是表格的倒数第3和倒数第2个数据(如果要获取倒数第一个的话,可以采用table.tail(3)之类)
3.2选择表格的哪几列
#可以通过指定列名,来获取想要的列的所有数据
cols=['CITE','PATN:PNO']
table[cols].head(3)#这里table[cols]相当于另一个dataframe了,也可以通过head()方法来获取前五行
table_2 = table[cols][3:10] #还可以将这两列的4到10行的数据赋值给一个新的表格
table_2
a = ['a','b','c']
3.3 选择表格的某一单元格的数据
table.loc[2,'PATN:ISD&