python之电子表格的读取(read_excel函数)

这篇博客介绍了Python中使用pandas的read_excel函数读取xls和xlsx电子表格的方法,包括参数如io、sheet_name、header、skiprows等的含义。强调了如何设置表头、处理缺失值和特定数值格式。示例代码展示了如何指定表头、将特定列转换为字符串以及将'未知'视为缺失值。最后,展示了操作后的数据效果。
摘要由CSDN通过智能技术生成

python之电子表格的读取(read_excel函数)

对于xls与xlsx的表格数据,用read_excel函数
该函数的用法及参数含义如下:
read_exce ( io,sheet_name=0,header=0,skiprows=None,skip_footer=0,
           index_col=None,names=None,parse_cols=None,parse_dates=False,
           na_values=None,throusands=None,convert_float=True)

参数含义:

io:文件路径
sheet_name:指定表格的第几个sheet,默认第一个,可以传递整数也可以传递sheet的名称
header:是否需要将数据集的第一行用作表头,默认用作
skiprows:指定需要跳过原数据集中的起始行数
skip_footer:指定需要跳过原数据集中的末尾行数
names:如果原数据集中没有变量,可以通过该参数在数据读取时给数据框添加具体的表头
index_col:指定哪些列用作数据框的行索引(标签)
parse_cols:为True时,则尝试解析数据框中的行索引;为列表,则尝试解析对应的日期列;参数为嵌套列表,则将某些列合并为日期列;如果参数为字典,则解析对应的列(即字典中的值),并生成新的变量名(即字典中的键)
converters:通过字典的形式,指定哪些列需要转换成什么形式
na_values:指定原数据中哪些特殊值代表了缺失值
throusands:指定原数据集中的千分位符
parse_dates:该参数在函数内不再生效
convert_float:默认将所有的数值型变量转换位浮点型变量

注意:

  1. 不要将sheet_name写成sheetname,否则将提示错误:
    TypeError: read_excel() got an unexpected keyword argument 'sheetname
  2. 当一个表格有多个sheet,用sheet_name传递整数时,默认0表示第一个sheet(计算机语言都是从0开始计数),所以若想读取第二个sheet时,应该赋值1而不是2。
    例如:当要读取的表格有且只有两个sheet时,你赋值2的话将提示错误:
    TypeError: read_excel() got an unexpected keyword argument ‘sheetname’。
    只有两个sheet,而你要读取第三个sheet,这就为难它了。

案例

在这里插入图片描述
待读取的数据如上图,要求:添加适当的表头;指定“未知”的值为缺失值;0开头的0部分不能省略,代码如下:

data=pd.read_excel(r'D:\Desktop\工作簿1.xlsx',
    header=None,
    names=['编号','日期','食物','价格','来源'],
    converters={0:str},
    na_values='未知')
data  #返回数据

w
完成的效果如上图所示。

参考书籍《数据分析从入门到进阶》(机械工业出版社)

感谢阅读与参考

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值