pandas中的一些方法及应用

  1. dataframe的遍历
data_1 = pd.read_csv('temp.csv')
# dataframe的遍历,本人常用的两种方法
for idx, val in data_1.iterrows():
    print(idx, val)
    if idx == len(path) - 111:
        break
for row in data_1.itertuples():
    print(row)
    if row[0] == len(path) - 111:
        break

在这里插入图片描述
在这里插入图片描述

  1. .loc();.iloc()
data_1 = pd.read_csv('temp.csv').fillna("")    
"""                                            
.iloc(x,y)方法选取数据,x是对行进行截取,y是对列进行截取             
x:  [a:b],切片,左闭右开                              
y:  [a,b],特指两位,a和b                             
"""                                            
# 选取第一行的数据                                     
print(data_1.iloc[0])                          
# 选取前三行数据                                      
print(data_1.iloc[0:3])                        
# 选取第一列,所有行,即表中所有报考机构的名称                       
print(data_1.iloc[:, [0]])                     
# 选取第一,二列所有数据                                  
print(data_1.iloc[:, [0, 2]])                  
# 选取第一,二行,第二,三,四列数据                            
print(data_1.iloc[0:2, [1, 2, 3]])             
                                               
"""                                            
.loc(x,y)方法选取数据                                
x: [a:b],切片,左闭右开                               
y: ['具体列名']                                    
"""                                            
print(data_1.loc[0:1,["招录机关","机构层级"]])         

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3. apply()

# data为某一行的数据,定义的方法需要留个位置接收他,data是个series,data_1,data_2是我指定的列名,做了个简单的str合并 
def func(data, data_1, data_2):                                       
    result = data[data_1] + data[data_2]                              
    return result                                                     
                                                                      
                                                                      
# axis=1是指定操作每一行的数据,axis=0是指定操作每一列数据                                  
data_1['apply方法列'] = data_1.apply(func, axis=1, args=("机构性质", "机构层级"))

![在这里插入图片描述](https://img-blog.csdnimg.cn/3dd8a71d491e43e89548728edc7726e4.png

4.groupby()分类

data_1 = pd.read_csv('temp.csv')
# 根据招考机关分类,并计算职位代码列值的平均值
print(data_1.groupby("招录机关")["职位代码"].mean())
  1. argmax(),找到某列最大值并返回该行的数据
data_1 = pd.read_csv('temp.csv')
# 找到职位代码列值最大的数据行数,并根据指定行展示数据
print(data_1.loc[[data_1['职位代码'].argmax()]])

6.删除指定行列

data_1 = pd.read_csv('temp.csv')
# 设置表格index为职位代码
data = data_1.set_index(data_1["职位代码"])
# 删除指定列
print(data.drop(columns=['咨询电话']))
# 删除指定行,根据index删除,删除职位代码为1000002-1000004的行
print(data.drop(labels=range(100002,100005)))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值