1、将某一列作为索引
data =data.set_index('key')
2、数据分割(提取日期中的月份)
x='2017/1/1 9:05'
print(x.split('/')[1])
print(x.split('/')[2])
print(x.split('/')[2].split(' ')) ##x.split('/'):按‘/’进行分割
import pandas as pd
time = ['2017/1/1','2017/1/2','2017/1/3']
data = pd.DataFrame(time,columns=['time'])
f = lambda x: int(x.split('/')[1])
data['mounth'] = data['time'].map(f)
3、根据某一列的数值将另外一个表中对应的值添加在新一列
data = pd.read_csv('.\附件1.csv',encoding='gbk')
df = pd.read_csv('.\附件2.csv',encoding='gbk')
df = dict(zip(df['商品'], df['大类']))
#zip()可以将两个或多个列表压缩成一个列表的, dict构建字典
#get方法用来获取一个对象中指定元素
f = lambda x: df.get(x,x)
data['大类'] = data['商品'].map(f)
f = lambda x: int(x.split('/')[1])
data['mounth'] = data['支付时间'].map(f)
data.head()
4、nlargest
pd.nlargest(n, columns)
返回按列降序排列的前n行。
以降序返回column中具有最大值的前n行。