- dataframe的遍历
data_1 = pd.read_csv('temp.csv')
# dataframe的遍历,本人常用的两种方法
for idx, val in data_1.iterrows():
print(idx, val)
if idx == len(path) - 111:
break
for row in data_1.itertuples():
print(row)
if row[0] == len(path) - 111:
break
- .loc();.iloc()
data_1 = pd.read_csv('temp.csv').fillna("")
"""
.iloc(x,y)方法选取数据,x是对行进行截取,y是对列进行截取
x: [a:b],切片,左闭右开
y: [a,b],特指两位,a和b
"""
# 选取第一行的数据
print(data_1.iloc[0])
# 选取前三行数据
print(data_1.iloc[0:3])
# 选取第一列,所有行,即表中所有报考机构的名称
print(data_1.iloc[:, [0]])
# 选取第一,二列所有数据
print(data_1.iloc[:, [0, 2]])
# 选取第一,二行,第二,三,四列数据
print(data_1.iloc[0:2, [1, 2, 3]])
"""
.loc(x,y)方法选取数据
x: [a:b],切片,左闭右开
y: ['具体列名']
"""
print(data_1.loc[0:1,["招录机关","机构层级"]])
3. apply()
# data为某一行的数据,定义的方法需要留个位置接收他,data是个series,data_1,data_2是我指定的列名,做了个简单的str合并
def func(data, data_1, data_2):
result = data[data_1] + data[data_2]
return result
# axis=1是指定操作每一行的数据,axis=0是指定操作每一列数据
data_1['apply方法列'] = data_1.apply(func, axis=1, args=("机构性质", "机构层级"))
4.groupby()分类
data_1 = pd.read_csv('temp.csv')
# 根据招考机关分类,并计算职位代码列值的平均值
print(data_1.groupby("招录机关")["职位代码"].mean())
- argmax(),找到某列最大值并返回该行的数据
data_1 = pd.read_csv('temp.csv')
# 找到职位代码列值最大的数据行数,并根据指定行展示数据
print(data_1.loc[[data_1['职位代码'].argmax()]])
6.删除指定行列
data_1 = pd.read_csv('temp.csv')
# 设置表格index为职位代码
data = data_1.set_index(data_1["职位代码"])
# 删除指定列
print(data.drop(columns=['咨询电话']))
# 删除指定行,根据index删除,删除职位代码为1000002-1000004的行
print(data.drop(labels=range(100002,100005)))