一、excel文件
pd.read_excel(filepath, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True)
参数可使用默认值,或根据需要进行设置
常用参数说明:
1.sheet_name 工作表名。默认读取工作簿中第一张工作表;sheet_name=‘table’ 读取工作表table;sheet_name=None 读取工作簿中所有表,并以字典形式返回数据,key对应表名,value(数据类型DataFrame)对应表中的数据
2.header 列名索引。默认以读入工作表第一行作为列名;header=None 将工作表第一行作为数据读入(不作为列名);传入其他整型值时,以传入值对应的行作为列名;传入整形列表时,为MultiIndex
3.names 列名 list。默认为None,使用读入工作表第一行作为列名;如传入列名list,需同时定义header=None
4.index_col 定义索引列。指定特定列作为行索引时使用
5.usecols 使用列,也可理解为把哪些列作为数据读入。默认读取所有列;设置usecols=‘A,C’ 指使用A C两列;设置usecols=‘A:C’ 指使用A B C三列;
6.dtype 数据类型。设置读入数据列数据类型,以字典传入参数值,如:{‘cola’:int,‘colb’:str}
二、csv文件
pd.read_csv(filepath, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
参数可使用默认值,或根据需要进行设置
常用参数说明:
1.sep 分隔符,默认为","
2.delimiter 同sep
3.header 列名索引。默认读入数据第一行只作为列名;当待读取文件无表头时,可设置参数header=None;想把其他行作为列名时,可设置参数header为行索引
注意:header=0表示行索引为0的数据,即数据的第一行,非csv文件第一行
4.dtype 数据类型。设置读入数据列数据类型,以字典传入参数值,如:{‘cola’:int,‘colb’:str}
5.chunksize 分片大小。默认为None,不分片处理;如需对数据分片处理添加chunksize,参数值需为整型,结果为按指定的chunksize大小分片的TextFileReader,可通过循环获取每个分片的数据
常用参数的使用示例详见:csv文件读取与写出
三、json文件
常见的数据存储格式,易读写
pd.read_json(filepath, orient=None, typ='frame', dtype=True, convert_axes=True, convert_dates=True, keep_default_dates=True, numpy=False, precise_float=False, date_unit=None, encoding=None, lines=False, chunksize=None, compression='infer')
参数可使用默认值,或根据需要进行设置
常用参数说明:
1.orient 定义json格式。一般情况下,根据json文件的写出格式指定orient;
2.dtype 数据类型。设置读入数据列数据类型,以字典传入参数值,如:{‘cola’:int,‘colb’:str}
3.encoding 文件编码方式。默认为utf-8
4.lines 按行读取json对象
5.chunksize 返回可迭代的json对象,用法类似csv
四、剪切板数据
剪切板数据,方便读取小量数据
pd.read_clipboard(sep='\\s+', **kwargs)
常用参数说明:
1.sep 分隔符。默认为"s+",如复制数据中包含空格,使用其他分隔符
2.其他参数参考read_csv
五、pickle文件
二进制序列化数据,可读性差,需载入内存处理;且不同pandas版本输出的pickle文件可能不通用
pd.read_pickle(file)