#1.获取本地Excel数据
假如有 text.xlsx excel文件,想要读取该数据,就要执行以下代码:
import pandas as pd
pf=pd.read_excel("./test.xlsx")
pf
要是想要读取Excel文件中的其他文件,则需要将 text.xlsx 替换成想要读取的文件。"./"指的是 执行,"./ text.xlsx"意思是执行这个Excel文件。
# 2.将salary列数据转化为最大值与最小值的平均值
import re
def func(df):
lst = df['salary'].split('-')
smin = int(lst[0].strip('k'))
smax = int(lst[1].strip('k'))
df['salary'] = int((smin + smax) / 2*1000)
return df
df = df.apply(func,axis=1)
df
第一步:利用split()函数,根据‘-’将其拆分两列;
第二步:利用strip()移除字符串头尾指定的字符(默认为空格),并赋值最大值,最小值;
第三步:将最小值与最大值相加,之后除于2,并新建一列即可。
#3.利用工资salary列进行分类,然后计算平均时间
print(df.groupby('salary').mean())
#4 将create time列时间转化为月日
for i in range(len(df)):
df.iloc[i,0] = df.iloc[i,0].to_pydatetime().strftime("%m-%d")
df.head()