Pandas的使用
本节使用的数据集可从公众号:布欧Share 获取。
发送关键词:PyTorch2实战入门数据集
-
导入Excel
dataPath = "文件路径" df = pd.read_excel(dataPath, engine="openpyxl")
-
导入CSV文件
dataPath = "文件路径" df = pd.read_csv(dataPath, encoding='gbk')
-
导入TXT文件
dataPath = "文件路径" df = pd.read_csv(dataPath, sep='\t', encoding='gbk')
-
输出前五条数据 括号中可以传入条数的参数默认为5
df.head()
-
读取其中一行数据 []内传入序号
df.iloc[0]
-
读取多行数据
df.iloc[[0, 2]]
-
抽取连续几行的数据
df.iloc[0, 5]
-
抽取指定列的数据
df[["球员"]]
-
按条件抽取数据
df.loc[(df['出场次数'] > 15) & (df['射门'] >60)]
-
修改数据
df.iloc[0, 7] = 15
-
查看缺失值 若为True则是存在缺失值
df.isnull()
-
缺失值填充
df['球员'] = df['球员'].fillna(0)
-
降序排序
df.sort_values(by='出场次数', ascending=False)
-
升序排序
df.sort_values(by='出场次数', ascending=True)
-
求和
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130]] index = [1, 2, 3] columns = ['语文', '数学', '英语'] df = pd.DataFrame(data=data, index=index, columns=columns) df['总成绩'] = df.sum(axis=1) print(df)
-
增加最大值行
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]] index = [1, 2, 3, 4] columns = ['语文', '数学', '英语'] df = pd.DataFrame(data=data, index=index, columns=columns) new = df.max() df = df._append(new, ignore_index=True) print(df)
-
合并两张表
df1 = pd.DataFrame({'编号': ['mr001', 'mr002', 'mr003'], '语文': [110, 105, 109], '数学': [105, 88, 120], '英语': [99, 115, 130]}) print(df1) df2 = pd.DataFrame({'编号': ['mr001', 'mr002', 'mr003'], '体育': [34.5, 39.7, 38]}) print(df2) df_merge = pd.merge(df1, df2, on='编号') print(df_merge)
-
导出为CSV文件
df.to_csv('路径')