pandas 使用一些技巧

最新推荐文章于 2022-07-21 14:32:19 发布

windows_oracle

最新推荐文章于 2022-07-21 14:32:19 发布

阅读量160

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/windows_oracle/article/details/83030992

版权

python 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

1.修改字段
import numpy as np
import pandas as pd
df = pd.DataFrame([['Snow','M',22],['Tyrion','M',32],['Sansa','F',18],['Arya','F',14]], columns=['name','gender','age'])

df.loc[df['name']=='Snow','name']='shy' 修改字段值可以修改单个字段

也可以修改这样修改整个行的数据
df = pd.DataFrame({'ID':[1,2,3,4,5],'value1':[10,'NA',40,'NA','NA'],'value2':[2,4,6,8,10]})
df.loc[df['value1']=='NA','value1' ]=df['value2']
df.loc[(df['value3']=='NA') | (df['value3'] != df['value2']),'value3' ]=df['value2']
同理 df['value1'] = map(lambda x,y: x if(x != 'NA') else y, df['value1'], df['value2']) 这个种方式在python 2.x 中可以在python3.x 中需要修改一下：
df['value1'] = list(map(lambda x,y: x if(x != 'NA') else y, df['value1'], df['value2']))
因为map 的返回值有原来的在python2.x 中的list 变为在python 3.x 中 object 因此在返回的值的过程中可以用list（）

paData['quality'] = map(lambda x: '优' if(x > 40) else '差', paData['score'])
df['name'] = map(lambda x: 'aaa' if(x == 'bbb') else x, df['name'])

2. 字典元组相关处理转换datafram

tmpList=[[1515459600, 'V1.0.0', '0551', '1', 'XXXXXXXA', '2018-01-04 14:01:59', '414069', '2018-01-09 09:03:08', '1'], [1515459600, 'V1.0.0', '0551', '1', 'XXXXXXXB', '2018-01-04 14:01:59', '414069', '2018-01-09 09:03:08', '1']]

tmpList2=[[1515459600, 'V1.0.0', '0551', '1', 'XXXXXXXC', '2018-01-04 14:01:59', '414069', '2018-01-09 09:03:08', '1']]

dict_list['ZTEGC94EE06A']=tmpList
dict_list['ZTEGC94EE06C']=tmpList2

[i for j in dict_list for i in dict_list[j]] 类似结构

tmplist=[dict_list [i][0] for i in dict_list 转换为 list 然后在
tempdata= pd.DataFrame(tmplist, columns=names) 可转换为DataFrame

3.字符串处理

TempInfo['Id'] = TempInfo['Id'].str.replace('.0','')
这样避免将 10.0 替换后为1 的情况 replace 也可以用正则表达式来匹配你所需要的替换的目标字符串。
TempInfo['Id'] = TempInfo['Id'].str.replace("\.0","")

4.groupby 相关用法

df.groupby('a').agg({'b':['sum','min'],'c':'max'}) 给某一个字段求和和计算最小值。
df.groupby(['deviceid'],as_index=True).agg({'deviceid':['count'],'subdeviceCnt':['sum']}).reset_index()

df = pd.DataFrame({'tip': [16.99, 10.34, 23.68, 23.68, 24.59],
... 'sex': ['Female', 'Male', 'Male', 'Male', 'Female']})
df
sex tip
0 Female 16.99
1 Male 10.34
2 Male 23.68
3 Male 23.68
4 Female 24.59
temp=df.groupby('sex').agg({'sex':['count'],'tip':['sum']}).reset_index()
temp
sex tip sex
sum count
0 Female 41.58 2
1 Male 57.70 3
temp.columns=['sex','tip','sexCnt']
temp
sex tip sexCnt
0 Female 41.58 2
1 Male 57.70 3
I want to get this result
temp=temp[['sex','sexCnt','tip']]
temp
sex sexCnt tip
0 Female 2 41.58
1 Male 3 57.70

可以这样
temp=df.groupby('sex',as_index=True).agg({'sex':['count'],'tip':['sum']}).reset_index()
索引字段的值聚合的值在索引后面，那么直接
temp.columns=['sex','sexCnt','tip'] 重命名
temp=temp[['sex','sexCnt','tip']] 排序都可以了

获取符合条件的数据条数
temp=df[((df['type'] == '2.4G') | (df['type'] =='5G')) & (df['power'] !='')].groupby(['deviceid'])['deviceid'].count()

pd.concat([df1,df2],ignore_index=True)

待条件drop
df.drop(df['id'] > 100000,axis=0, inplace=True)

nullData=df[(df['Name'].isnull().values==True)]

windows_oracle

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas 使用一些技巧

1.修改字段import numpy as npimport pandas as pddf = pd.DataFrame([['Snow','M',22],['Tyrion','M',32],['Sansa','F',18],['Arya','F',14]], columns=['name','gender','age']) df.loc[df['name']=='Snow','...
复制链接

扫一扫