【目录】
文章目录
【正文】
学习时间:30分钟。
1. pandas库读取数据
用Pandas
里的read_x
方法可以读取外部数据。
x
表示要读取的文件的格式。
- 读取
xlsx
文件用read_excel
方法。 - 读取
csv
文件用read_csv
方法。 - 读取
txt
文件用read_table
方法。
2. read_excel()函数读取Excel文件
read_excel()
函数是pandas库中用于读取Excel文件的函数。
【语法】
pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None)
这里用的语法是调用库的函数
:
库名.函数名( )
pandas是库名,这里通常用的是它的简写pd
。
read_excel
是函数名,在Python中,读取通常都会用到跟read
相关的函数。
excel
表示要读取的文件类型。
【参数】
- io:要读取的Excel文件的路径(字符串)或者可迭代对象,例如文件对象、Excel表格URL、Excel文件中的表名等。
- sheet_name:要读取的Sheet的名称或索引(默认为0)。
- header:指定列名所在的行数,默认为0,表示第一行。
- names:自定义列名(列表形式),如果不指定,则默认使用Excel文件中的列名。
- index_col:指定作为行索引的列,默认为None,表示不使用任何列作为索引。
- usecols:指定要读取的列(列表形式),可以是列名或列索引。
3. 准备工作
注意使用read_excel()
函数前需先安装pandas库。
在读取文件时首先要确定文件路径,即要读取的文件存在电脑中的哪个文件夹下。
以读取示例.xlsx
为列。
我的示例.xlsx
的绝对路径如下:
D:\安迪笔记\4.数据分析\7\示例.xlsx
我的示例.xlsx
的相对路径如下:
4.数据分析\7\示例.xlsx
注意你的路径和我的不同哦!!!
示例.xlsx
文件里有两个表单。
示例.xlsx
文件的第1个sheet如下所示:
示例.xlsx
文件的第2个sheet如下所示:
4. 路径前的r
是什么
file = r"D:\安迪笔记\4.数据分析\7\示例.xlsx"
电脑中的文件路径默认使用\
。
Python中的转义字符通常以反斜杠\
开头。
如果路径中有\
,且\
后有转义字符时,程序会默认为是转义字符而报错。
因此可以在路径前面加一个字符r
,告知程序这是路径。
如果不加r
,可以把路径里面的所有\
转换成/
。
5. io参数 = 绝对路径
【代码示例】
# 导入pandas库并简写为pd
import pandas as pd
# 文件的绝对路径
file = r"D:\安迪笔记\4.数据分析\7\示例.xlsx"
# 调用函数:库名.函数名()
# pd是库名
# read_excel是函数名
# io参数=file,file是路径
df = pd.read_excel(file)
# 输出读取到的数据
print(df)
【终端输出】
序号 学号 籍贯 性别
0 1 2023001 广东 男
1 2 2023002 河南 男
2 3 2023003 湖北 男
3 4 2023004 河南 男
4 5 2023005 河南 男
5 6 2023006 其他 男
6 7 2023007 湖北 女
输出的是示例.xlsx
文件的中的第一个sheet学生
里面的数据。
6. io = 相对路径
【代码示例】
# 导入pandas库并简写为pd
import pandas as pd
# 文件的相对路径
file = r"4.数据分析\7\示例.xlsx"
# 调用函数:库名.函数名()
# pd是库名
# read_excel是函数名
# io参数=file,file是路径
df = pd.read_excel(file)
# 输出读取到的数据
print(df)
【终端输出】
序号 学号 籍贯 性别
0 1 2023001 广东 男
1 2 2023002 河南 男
2 3 2023003 湖北 男
3 4 2023004 河南 男
4 5 2023005 河南 男
5 6 2023006 其他 男
6 7 2023007 湖北 女
7. sheet_name:要读取的sheet的名称或索引
xlsx
格式的文件会有多个sheet。
可以通过设定sheet_name
参数指定要读取哪个sheet表。
sh