python-pandas文件读取(excel、csv、json等)

本文介绍了如何使用Pandas库从不同格式的文件中加载数据,包括Excel、CSV、JSON、剪切板及pickle文件。详细解释了各方法的常用参数及其应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >



一、excel文件

pd.read_excel(filepath, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True)

参数可使用默认值,或根据需要进行设置

常用参数说明:
1.sheet_name 工作表名。默认读取工作簿中第一张工作表;sheet_name=‘table’ 读取工作表table;sheet_name=None 读取工作簿中所有表,并以字典形式返回数据,key对应表名,value(数据类型DataFrame)对应表中的数据
2.header 列名索引。默认以读入工作表第一行作为列名;header=None 将工作表第一行作为数据读入(不作为列名);传入其他整型值时,以传入值对应的行作为列名;传入整形列表时,为MultiIndex
3.names 列名 list。默认为None,使用读入工作表第一行作为列名;如传入列名list,需同时定义header=None
4.index_col 定义索引列。指定特定列作为行索引时使用
5.usecols 使用列,也可理解为把哪些列作为数据读入。默认读取所有列;设置usecols=‘A,C’ 指使用A C两列;设置usecols=‘A:C’ 指使用A B C三列;
6.dtype 数据类型。设置读入数据列数据类型,以字典传入参数值,如:{‘cola’:int,‘colb’:str}



二、csv文件

pd.read_csv(filepath, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)

参数可使用默认值,或根据需要进行设置

常用参数说明:
1.sep 分隔符,默认为","
2.delimiter 同sep
3.header 列名索引。默认读入数据第一行只作为列名;当待读取文件无表头时,可设置参数header=None;想把其他行作为列名时,可设置参数header为行索引
注意:header=0表示行索引为0的数据,即数据的第一行,非csv文件第一行
4.dtype 数据类型。设置读入数据列数据类型,以字典传入参数值,如:{‘cola’:int,‘colb’:str}
5.chunksize 分片大小。默认为None,不分片处理;如需对数据分片处理添加chunksize,参数值需为整型,结果为按指定的chunksize大小分片的TextFileReader,可通过循环获取每个分片的数据


常用参数的使用示例详见:csv文件读取与写出



三、json文件

常见的数据存储格式,易读写

pd.read_json(filepath, orient=None, typ='frame', dtype=True, convert_axes=True, convert_dates=True, keep_default_dates=True, numpy=False, precise_float=False, date_unit=None, encoding=None, lines=False, chunksize=None, compression='infer')

参数可使用默认值,或根据需要进行设置

常用参数说明:
1.orient 定义json格式。一般情况下,根据json文件的写出格式指定orient;
2.dtype 数据类型。设置读入数据列数据类型,以字典传入参数值,如:{‘cola’:int,‘colb’:str}
3.encoding 文件编码方式。默认为utf-8
4.lines 按行读取json对象
5.chunksize 返回可迭代的json对象,用法类似csv



四、剪切板数据

剪切板数据,方便读取小量数据

pd.read_clipboard(sep='\\s+', **kwargs)

常用参数说明:
1.sep 分隔符。默认为"s+",如复制数据中包含空格,使用其他分隔符
2.其他参数参考read_csv



五、pickle文件

二进制序列化数据,可读性差,需载入内存处理;且不同pandas版本输出的pickle文件可能不通用

pd.read_pickle(file)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值