1、读取本地 txt文件
df=open(r'D:\work\fenxi\fenxiguihua\loseuser2\1018.txt')
df=pd.read_csv(df,header=0,delimiter='\t')
df.head()
2、dataframe 重命名
t.rename(columns={'poi_id':'thedaymost_poi_id','theday_visit_poi_num':'thedaymost_visit_poi_times'},inplace= True)
3、dataframe 整体去重
df.drop_duplicates(inplace=True)
4、缺失值填充
df.fillna(0,inplace=True)
5、保存至本地文件
df.to_csv(r'D:\work\fenxi\fenxiguihua\loseuser2\result1.csv',index=False,sep='\t')
6、提取部分字段为新dataframe
b=df[df.datekey==20191018][['user_id','is_pay','city_num_y','city_num_lastpay_x','city_num_lastpay']]
b.head()
7、删除部分字段
df.drop(['user_id','is_pay'],axis =1,inplace=True)
8、通过多个条件筛选数据
df[(df.datekey <= 20191007) & (df.user_id == 1234567)]