python-pandas文件读取(excel、csv、json等)_vscode pandas python打开excel-CSDN博客

本文链接：https://blog.csdn.net/weixin_49256582/article/details/108644367

本文介绍了如何使用Pandas库从不同格式的文件中加载数据，包括Excel、CSV、JSON、剪切板及pickle文件。详细解释了各方法的常用参数及其应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、excel文件
二、csv文件
三、json文件
四、剪切板数据
五、pickle文件

一、excel文件

pd.read_excel(filepath, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True)

参数可使用默认值，或根据需要进行设置

常用参数说明：
1.sheet_name 工作表名。默认读取工作簿中第一张工作表；sheet_name=‘table’ 读取工作表table；sheet_name=None 读取工作簿中所有表，并以字典形式返回数据，key对应表名，value(数据类型DataFrame)对应表中的数据
2.header 列名索引。默认以读入工作表第一行作为列名；header=None 将工作表第一行作为数据读入(不作为列名)；传入其他整型值时，以传入值对应的行作为列名；传入整形列表时，为MultiIndex
3.names 列名 list。默认为None，使用读入工作表第一行作为列名；如传入列名list，需同时定义header=None
4.index_col 定义索引列。指定特定列作为行索引时使用
5.usecols 使用列，也可理解为把哪些列作为数据读入。默认读取所有列；设置usecols=‘A,C’ 指使用A C两列；设置usecols=‘A:C’ 指使用A B C三列；
6.dtype 数据类型。设置读入数据列数据类型，以字典传入参数值，如:{‘cola’:int,‘colb’:str}

二、csv文件

pd.read_csv(filepath, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)

参数可使用默认值，或根据需要进行设置

常用参数说明：
1.sep 分隔符，默认为","
2.delimiter 同sep
3.header 列名索引。默认读入数据第一行只作为列名；当待读取文件无表头时，可设置参数header=None；想把其他行作为列名时，可设置参数header为行索引
注意：header=0表示行索引为0的数据，即数据的第一行，非csv文件第一行
4.dtype 数据类型。设置读入数据列数据类型，以字典传入参数值，如:{‘cola’:int,‘colb’:str}
5.chunksize 分片大小。默认为None，不分片处理；如需对数据分片处理添加chunksize，参数值需为整型，结果为按指定的chunksize大小分片的TextFileReader，可通过循环获取每个分片的数据

常用参数的使用示例详见：csv文件读取与写出

三、json文件

常见的数据存储格式，易读写

pd.read_json(filepath, orient=None, typ='frame', dtype=True, convert_axes=True, convert_dates=True, keep_default_dates=True, numpy=False, precise_float=False, date_unit=None, encoding=None, lines=False, chunksize=None, compression='infer')

参数可使用默认值，或根据需要进行设置

常用参数说明：
1.orient 定义json格式。一般情况下，根据json文件的写出格式指定orient；
2.dtype 数据类型。设置读入数据列数据类型，以字典传入参数值，如:{‘cola’:int,‘colb’:str}
3.encoding 文件编码方式。默认为utf-8
4.lines 按行读取json对象
5.chunksize 返回可迭代的json对象，用法类似csv