一. 基本操作
import pandas as pd
# 读取Excel文件
data = pd.read_excel('read.xlsx')
#将data写入Excel文件
data.to_excel('write.xlsx', index=False) # 不含索引
#选定一列
lie_data = data['x'] #x为列标签,在第一行 如 user_a user_b problem_id ...
#删除列
data.drop('user_a', axis=1) #axis=1列 =0行
#新增列
data['name'] = [7, 8, 9] #name为新的列标签
#选定一行
hang_data = data.loc[y] #y为行标签/索引,默认0 1 2 3 4...(从列标签下一行开始)
#删除行
data.drop(y)
#新增行
new_data={'user_a': 'zake', 'user_b': 'joker',....}
data = data.append(new_data, ignore_index=True)
#单元格修改
data.at[0, 'user_a'] = 'zjx666' # 将第一行,'user_a' 列的值修改为 'zjx666'
二. 数据处理
#按数据大小筛选行
copy_data = data[data['similarity'] > 90] #筛出similarity(查重率)那列大于90的所有数据行
#按数据内容筛选行
name_data = data[data['user_a'].isin(['zake', 'joker'])] #筛出 user_a 叫zake或joker的数据行
#按某列排序
sort_data = data.sort_values(by='similarity', ascending=False) #按查重率那列降序排序
#ascending=False(降序)
#ascending=True(升序)
#算score列均值
avg = data['score'].mean()
#score列求和
sum = data['score'].sum()
#方差
data['score'].var()
#加权平均并写入
data['junzhi'] = data['score1'] *0.4 + data['score2'] * 0.6