import numpy as np
import pandas as pd
一、文件的读取和写入
1. 文件读取
pandas读取csv,excel,txt时句子差不多,只要替换相应的csv,excel,txt为所需要读取的文件的格式即可
df_csv = pd.read_csv('data/my_csv.csv')
df_txt = pd.read_table('data/my_table.txt')
df_excel = pd.read_excel('data/my_excel.xlsx')
其中, header=None 表示第一行不作为列名, index_col 表示把某一列或几列作为索引, usecols 表示读取列的集合,默认读取所有的列, parse_dates 表示需要转化为时间的列,nrows 表示读取的数据行数。
在使用 read_table 的时候需要注意,参数 sep 中使用的是正则表达式,因此需要对 | 进行转义变成 | ,否则无法读取到正确的结果。
pd.read_table('data/my_table_special_sep.txt',
sep=' \|\|\|\| ', engine='python')
2 数据写入
df_txt.to_csv('data/my_txt_saved.txt', sep='\t', index=False)
df_excel.to_excel('data/my_excel_saved.xlsx', index=False)
# pandas 中没有定义 to_table 函数,但是 to_csv 可以保存为 txt 文件,并且允许自定义分隔符,常用制表符 \t 分割:
df_txt.to_csv('data/my_txt_saved.txt', sep='\t', index=False)
如果想要把表格快速转换为 markdown 和 latex 语言,可以使用 to_markdown 和 to_latex 函数,此处需要安装 tabulate 包
print(df_csv.to_markdown())
| | col1 | col2 | col3 | col4 | col5 |
|---:|-------:|:-------|-------:|:-------|:---------|
| 0 | 2 | a | 1.4 | apple | 2020/1/1 |
| 1 | 3 | b | 3.4 | banana | 2020/1/2 |
| 2 | 6