python之电子表格的读取（read_excel函数）

最新推荐文章于 2024-08-16 15:21:00 发布

霍尔格松

最新推荐文章于 2024-08-16 15:21:00 发布

阅读量2.3w

点赞数 8

文章标签： python

本文链接：https://blog.csdn.net/weixin_46643128/article/details/113313539

版权

这篇博客介绍了Python中使用pandas的read_excel函数读取xls和xlsx电子表格的方法，包括参数如io、sheet_name、header、skiprows等的含义。强调了如何设置表头、处理缺失值和特定数值格式。示例代码展示了如何指定表头、将特定列转换为字符串以及将'未知'视为缺失值。最后，展示了操作后的数据效果。

摘要由CSDN通过智能技术生成

python之电子表格的读取（read_excel函数）

对于xls与xlsx的表格数据，用read_excel函数
该函数的用法及参数含义如下：
read_exce ( io,sheet_name=0,header=0,skiprows=None,skip_footer=0,
           index_col=None,names=None,parse_cols=None,parse_dates=False,
           na_values=None,throusands=None,convert_float=True)

参数含义：

io：文件路径
sheet_name：指定表格的第几个sheet，默认第一个，可以传递整数也可以传递sheet的名称
header：是否需要将数据集的第一行用作表头，默认用作
skiprows：指定需要跳过原数据集中的起始行数
skip_footer：指定需要跳过原数据集中的末尾行数
names：如果原数据集中没有变量，可以通过该参数在数据读取时给数据框添加具体的表头
index_col：指定哪些列用作数据框的行索引（标签）
parse_cols:为True时，则尝试解析数据框中的行索引；为列表，则尝试解析对应的日期列；参数为嵌套列表，则将某些列合并为日期列；如果参数为字典，则解析对应的列（即字典中的值），并生成新的变量名（即字典中的键）
converters：通过字典的形式，指定哪些列需要转换成什么形式
na_values：指定原数据中哪些特殊值代表了缺失值
throusands:指定原数据集中的千分位符
parse_dates：该参数在函数内不再生效
convert_float：默认将所有的数值型变量转换位浮点型变量

注意：

不要将sheet_name写成sheetname，否则将提示错误：
TypeError: read_excel() got an unexpected keyword argument 'sheetname’
当一个表格有多个sheet，用sheet_name传递整数时，默认0表示第一个sheet（计算机语言都是从0开始计数），所以若想读取第二个sheet时，应该赋值1而不是2。
例如：当要读取的表格有且只有两个sheet时，你赋值2的话将提示错误：
TypeError: read_excel() got an unexpected keyword argument ‘sheetname’。
只有两个sheet，而你要读取第三个sheet，这就为难它了。

案例

在这里插入图片描述
待读取的数据如上图，要求：添加适当的表头；指定“未知”的值为缺失值；0开头的0部分不能省略，代码如下：

data=pd.read_excel(r'D:\Desktop\工作簿1.xlsx',
    header=None,
    names=['编号','日期','食物','价格','来源'],
    converters={0:str},
    na_values='未知')
data  #返回数据