[三] 2 数据分析工具：Pandas -- IO工具

最新推荐文章于 2023-12-26 08:48:14 发布

数佳

最新推荐文章于 2023-12-26 08:48:14 发布

阅读量186

点赞数

分类专栏：数据分析文章标签： pandas read_csv

本文链接：https://blog.csdn.net/yaocong1993/article/details/115015242

版权

数据分析专栏收录该内容

15 篇文章 1 订阅

订阅专栏

一、read_csv()

pandas.read_csv(filepath_or_buffer, sep=, delimiter=None, header=‘infer’, index_col=None, dtype=None, engine=None, encoding=None, …)

sep / delimiter：分隔符，默认分隔符为’,'逗号
header：int, list of int, default ‘infer’. 用作列名的行，默认为0（第一行）
index_col：指定某列为行索引，否则自动索引0, 1, 2, …
engine：{‘c’, ‘python’}. 使用的解析引擎，C引擎速度快，Python引擎功能更加完备
encoding：{‘utf8’, ‘gbk’}. 指定字符集类型，即编码

大多数情况先将excel导出csv，再读取。

import os
os.chdir("C:\\Users\\ctsi\\Desktop")

pd.read_csv("data.csv")
pd.read_csv("data.csv", sep = ",", header = 'infer')
'''
   val1  val2  val3  val4
0     1     2     3     4
1     5     6     7     8
2     9    10    11    12
'''
# <class 'pandas.core.frame.DataFrame'>

pd.read_csv("data.csv", header = 1)
'''
   1   2   3   4
0  5   6   7   8
1  9  10  11  12
'''

pd.read_csv("data.csv", index_col = 1)
'''
      val1  val3  val4
val2                  
2        1     3     4
6        5     7     8
10       9    11    12
'''

pd.read_csv("data.csv", engine = "python", encoding = "utf8") # 一般读取中文出错时使用
'''
   val1  val2  val3  val4
0     1     2     3     4
1     5     6     7     8
2     9    10    11    12
'''

二、read_table()

参数和read_csv()基本一致，主要区别为：默认分隔符为 \t
可用于读取txt文件

三、read_excel()

pandas.read_excel(io, sheet_name=0, header=0, index_col=None, dtype=None, engine=None)

io：文件路径
sheet_name：str, int, list, or None, default 0.
默认为0，返回第一张表的内容；
sheetname = ‘sheet1’，返回名称为sheet1的表；
sheetname = None，返回所有表；
sheetname = [0, 1]或sheetname = [‘sheet1’, 1]，返回指定的多张表；
header：int, list of int, default ‘infer’. 用作列名的行，默认为0（第一行）
index_col：指定某列为行索引，否则自动索引0, 1, 2, …

pd.read_excel("data.xlsx")
pd.read_excel("data.xlsx", sheetname = 0)
pd.read_excel("data.xlsx", sheetname = "山西省")
'''
   省级政区代码 省级政区名称  地市级政区代码 地市级政区名称
0  140000    山西省   130100     太原市
1  140000    山西省   130100     太原市
2  140000    山西省   140800     运城市
'''

pd.read_excel("data.xlsx", sheetname = None)
'''
{'山西省':    省级政区代码 省级政区名称  地市级政区代码 地市级政区名称
0  140000    山西省   130100     太原市
1  140000    山西省   130100     太原市
2  140000    山西省   140800     运城市, '河北省':       河北省 省级政区名称  地市级政区代码 地市级政区名称    年份
0  130000    河北省   130100    石家庄市  2000
1  130000    河北省   130100    石家庄市  2008
2  130000    河北省   130200     唐山市  2000}
'''