pandas 使用小技巧

本文分享了使用pandas进行数据分析时的一些实用技巧,包括加载excel文件时的参数设置,如何导出excel文件,如何新建、排序和转化DataFrame列,统计空值,填充空值,日期格式转换以及数据筛选等。
摘要由CSDN通过智能技术生成

最近有用pandas制作报表和数据分析的需求,在此记录下一些小技巧:

1、加载excel文件

pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, **kwds)

io:excel文件,可以是文件路径、文件网址、file-like对象、xlrd workbook
sheetname:返回指定的sheet,参数可以是字符串(sheet名)、整型(sheet索引)、list(元素为字符串和整型,返回字典{‘key’:’sheet’})、none(返回字典,全部sheet)
header:指定数据表的表头,参数可以是int、list of ints,即为索引行数为表头
names:返回指定name的列,参数为array-like对象。 index_col:设定索引的列,参数可以是int、list of ints
usecol:设定需要解析的列,默认为None,代表解析素有,如果直传一个int,代表解析到最后的那个列,如果传的是list则返回的是限定的列,比如:“A:E”或“A,C,E:F”或 [‘A’,’B’]
squeeze:如果解析的数据只包含一列数据,则返回一个Series,默认返回为DataFrame
dtype:可以制定每列的类型,示例:{‘a’: np.float64, ‘b’: np.int32} engine:如果 io
不是缓冲区或路径,则必须设置 io。 可接受的值是 None 或 xlrd converters:自定形式,设定对应的列要用的转换函数。
true_values:设定安歇为True值,不常用 false_values:设定哪些为False值,不常用
shiprows:需要跳过的行,list-like类型 nrows:要分析的行数 na_values:N/A值列表
parse_dates:传入的是list,将指定的类解析为date格式
date_parser:指定将输入的字符串转换为可变的时间数据。Pandas默认的数据读取格式是‘YYYY-MM-DD
HH:MM:SS’。如需要读取的数据没有默认的格式,就要人工定义。 thousands:千位分格数字的解析
comment:设定注释标识,在注释内的内容不解析 skipfooter:跳过末尾行
convert_float:将小数位为0的float类型转为int

如当表很大不需要用到所有列的时候,可以使用usecol选择需要的列。

查看列:

df.columns

2、导出

DataFrame.to_excel(excel_writer,
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值