利用pandas读取Excel表并处理成dataframe格式:
import pandas as pd
total_data = pd.read_excel('/Users/appler/Downloads/gzmxb.xls')
total_data = pd.DataFrame(total_data)
print(total_data) #通常会通过print来检查一下是否顺利读取
进行数据的进一步处理,如:
(1)利用不同列之间的数量关系进行新变量的合成:
#通过运算形成新变量列
total_data["单位支付合计数"]=total_data["应付工资"]+total_data["单位缴纳社保"]+total_data["单位缴纳住房公积金"]
print(total_data) #输出检查
pandas 获取DataFrame的规模(行数、列数)
df.info() #显示行数、列数等
df.shape #获取行数和列数
len(df) #获取行数
len(df.columns) #获取列数
(2)对不同列进行排序(多列条件排序)
df = pd.DataFrame({"A":[3,1,3,9,7],
"D":[666,1,888,5,3],
"C":[3,15,9,6,12],
"B":[2,4,6,10,8]},