一、read_csv()
pandas.read_csv(filepath_or_buffer, sep=, delimiter=None, header=‘infer’, index_col=None, dtype=None, engine=None, encoding=None, …)
- sep / delimiter:分隔符,默认分隔符为’,'逗号
- header:int, list of int, default ‘infer’. 用作列名的行,默认为0(第一行)
- index_col:指定某列为行索引,否则自动索引0, 1, 2, …
- engine:{‘c’, ‘python’}. 使用的解析引擎,C引擎速度快,Python引擎功能更加完备
- encoding:{‘utf8’, ‘gbk’}. 指定字符集类型,即编码
大多数情况先将excel导出csv,再读取。
import os
os.chdir("C:\\Users\\ctsi\\Desktop")
pd.read_csv("data.csv")
pd.read_csv("data.csv", sep = ",", header = 'infer')
'''
val1 val2 val3 val4
0 1 2 3 4
1 5 6 7 8
2 9 10 11 12
'''
# <class 'pandas.core.frame.DataFrame'>
pd.read_csv("data.csv", header = 1)
'''
1 2 3 4
0 5 6 7 8
1 9 10 11 12
'''
pd.read_csv("data.csv", index_col = 1)
'''
val1 val3 val4
val2
2 1 3 4
6 5 7 8
10 9 11 12
'''
pd.read_csv("data.csv", engine = "python", encoding = "utf8") # 一般读取中文出错时使用
'''
val1 val2 val3 val4
0 1 2 3 4
1 5 6 7 8
2 9 10 11 12
'''
二、read_table()
参数和read_csv()基本一致,主要区别为:默认分隔符为 \t
可用于读取txt文件
三、read_excel()
pandas.read_excel(io, sheet_name=0, header=0, index_col=None, dtype=None, engine=None)
- io:文件路径
- sheet_name:str, int, list, or None, default 0.
默认为0,返回第一张表的内容;
sheetname = ‘sheet1’,返回名称为sheet1的表;
sheetname = None,返回所有表;
sheetname = [0, 1]或sheetname = [‘sheet1’, 1],返回指定的多张表; - header:int, list of int, default ‘infer’. 用作列名的行,默认为0(第一行)
- index_col:指定某列为行索引,否则自动索引0, 1, 2, …
pd.read_excel("data.xlsx")
pd.read_excel("data.xlsx", sheetname = 0)
pd.read_excel("data.xlsx", sheetname = "山西省")
'''
省级政区代码 省级政区名称 地市级政区代码 地市级政区名称
0 140000 山西省 130100 太原市
1 140000 山西省 130100 太原市
2 140000 山西省 140800 运城市
'''
pd.read_excel("data.xlsx", sheetname = None)
'''
{'山西省': 省级政区代码 省级政区名称 地市级政区代码 地市级政区名称
0 140000 山西省 130100 太原市
1 140000 山西省 130100 太原市
2 140000 山西省 140800 运城市, '河北省': 河北省 省级政区名称 地市级政区代码 地市级政区名称 年份
0 130000 河北省 130100 石家庄市 2000
1 130000 河北省 130100 石家庄市 2008
2 130000 河北省 130200 唐山市 2000}
'''