Pandas--read_csv，to_csv参数说明

最新推荐文章于 2024-06-21 02:06:48 发布

初学小白Lu

最新推荐文章于 2024-06-21 02:06:48 发布

阅读量6k

点赞数 5

分类专栏： python数据分析文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/weixin_43956958/article/details/125881300

版权

python数据分析专栏收录该内容

18 篇文章 5 订阅

订阅专栏

文章目录

文件读取 pandas.read_csv
- 分块读入文件
pandas.DataFrame.to_csv

文件读取 pandas.read_csv

pandas.read_csv(filepath_or_buffer, 
				sep=NoDefault.no_default, 
				delimiter=None, 
				header='infer', 
				names=NoDefault.no_default, 
				index_col=None, 
				usecols=None, 
				squeeze=None, 
				prefix=NoDefault.no_default, 
				mangle_dupe_cols=True, 
				dtype=None, 
				engine=None, 
				converters=None, 
				true_values=None, 
				false_values=None, 
				skipinitialspace=False, 
				skiprows=None, 
				skipfooter=0, 
				nrows=None, 
				na_values=None, 
				keep_default_na=True, 
				na_filter=True, 
				verbose=False, 
				skip_blank_lines=True, 
				parse_dates=None, 
				infer_datetime_format=False, 
				keep_date_col=False, 
				date_parser=None, 
				dayfirst=False, 
				cache_dates=True, 
				iterator=False, 
				chunksize=None, 
				compression='infer', 
				thousands=None, 
				decimal='.', 
				lineterminator=None, 
				quotechar='"', 
				quoting=0, 
				doublequote=True, 
				escapechar=None, 
				comment=None, 
				encoding=None, 
				encoding_errors='strict', 
				dialect=None, 
				error_bad_lines=None, 
				warn_bad_lines=None, 
				on_bad_lines=None, 
				delim_whitespace=False, 
				low_memory=True, 
				memory_map=False, 
				float_precision=None, 
				storage_options=None)

参数：

filepath_or_buffer：str, path object or file-like object.字符串。任何有效的字符串路径都可以，网址也行。
sep：str, default ‘,’。字符串，表示分隔符，默认为’,’ .。一个字符及以上都可以，注意如果是转义字符要加’’
delimiter：str, default None。字符串，sep的别名，默认None。
header：int, list of int, None, default ‘infer’。用作列名的行号，默认是0(第一行)，如果没有列名默认None。
names：array-like, optional。结果的列名列表，与header=None共同使用。
index_col：int, str, sequence of int / str, or False, optional, default None。用作结果中行索引的列号或列名，可以是一个单一的名称\数字，也可以是一个分层索引。
usecols：list-like or callable, optional。返回列的子集。
squeeze：bool, default False。如果解析的数据仅包含一列，则返回一个Series。
prefix：str, optional。没有标题时要添加到列号的前缀
mangle_dupe_cols：bool, default True。重复的列将被指定为“ X”，“ X.1”，……“ X.N”，而不是“ X”……“ X”。如果列中的名称重复，则False将导致数据被覆盖。
dtype：Type name or dict of column -> type, optional。数据或列的数据类型。
engine：{‘c’, ‘python’, ‘pyarrow’}, optional。要使用的解析器引擎。C引擎速度更快，而python引擎当前功能更完善。
converters：dict, optional。包含列名称映射到函数的字典，例如{‘foo’: f}会把函数f应用到’foo’列。
true_values：list, optional。视为True的值
false_values：list, optional。视为False的值
skipinitialspace：bool, default False。在定界符后跳过空格。
skiprows：list-like, int or callable, optional。在文件开始处要跳过的行号（索引为0）或要跳过的行数（整数）。
skipfooter：int, default 0。忽略文件尾部的行数。
nrows：int, optional。从文件开头处读入的行数。
na_values：scalar, str, list-like, or dict, optional。需要用NA替换的值序列。
keep_default_na：bool, default True。解析数据时是否包括默认的NaN值。
na_filter：bool, default True。检测缺失值标记（空字符串和na_values的值）。请注意，如果将na_filter传递为False，则将忽略keep_default_na和 na_values参数。
verbose：bool, default False。打印各种解析器输出的信息，比如位于非数值列中的缺失值的数量。
skip_blank_lines：bool, default True。如果为True，跳过空白行，并且不解释为NaN值。
parse_dates：bool or list of int or names or list of lists or dict, default False。尝试将数据解析为datetime，默认为False。如果为True，将尝试解析所有的列。也可以指定列号或列名列来进行解析。如果列表的元素是元组或列表，将会把多个列组合在一起进行解析（例如日期\时间将拆分成两列）
infer_datetime_format：bool, default False。如果启用True和parse_dates，则pandas将尝试推断列中日期时间字符串的格式，并且如果可以推断出日期格式，就会切换到更快的解析它们的方法。
keep_date_col：bool, default False。如果连接列到解析日期上，保留被连接的列，默认为False。
date_parser：function, optional。用于解析日期的函数。
dayfirst：bool, default False。解析非明确日期时，DD / MM格式的日期，国际和欧洲格式。
cache_dates：bool, default True。如果为True，则使用唯一的转换日期缓存来应用datetime转换。
iterator：bool, default False。返回TextFileReader对象，用于零散地读入文件。
chunksize：int, optional。用于迭代的块大小。
compression：str or dict, default ‘infer’。用于对磁盘数据进行即时解压缩。设置为“无”将不进行解压缩。
thousands：str, optional。千位分隔符。
decimal：str, default ‘.’。识别为小数点的字符（例如，对于欧洲数据，请使用“，”）。
lineterminator：str (length 1), optional。用于将文件分成几行的字符。仅对C解析器有效。
quotechar：str (length 1), optional。用于表示引用项目的开始和结束的字符。
quoting：int or csv.QUOTE_* instance, default 0
doublequote：bool, default True。如果指定quotechar而未使用引号QUOTE_NONE，则指示是否将一个字段内的两个连续的quotechar元素解释为单个quotechar元素。
escapechar：str (length 1), optional。一字符字符串，用于转义其他字符。
comment：str, optional。在行结尾处分隔注释的字符。
encoding：str, optional。读/写时用于UTF的编码（例如’utf-8’）。
encoding_errors：str, optional, default “strict”。默认情况下，具有太多字段的行（例如，带有太多逗号的csv行）将引发异常，并且不会返回任何DataFrame。如果为False，则这些“坏行”将从返回的DataFrame中删除。
dialect：str or csv.Dialect, optional。如果提供的话，该参数将覆盖为以下参数的值（默认或不）：delimiter, doublequote, escapechar, skipinitialspace, quotechar, and quoting。
warn_bad_lines：bool, optional, default None。如果error_bad_lines为False，而warn_bad_lines为True，则将为每个“坏行”输出警告。
on_bad_lines：{‘error’, ‘warn’, ‘skip’} or callable, default ‘error’
delim_whitespace：bool, default False。指定是否将空格（例如或）用作分隔符。
low_memory：bool, default True。在内部对文件进行分块处理，从而在解析时减少了内存使用。
memory_map：bool, default False。如果为filepath_or_buffer提供了文件路径，则将文件对象直接映射到内存中，然后直接从那里访问数据。使用此选项可以提高性能，因为不再有任何I / O开销。
float_precision：str, optional。指定C引擎应将哪个转换器用于浮点值。
storage_options：dict, optional。解析特殊的URL。如果为该参数提供非fsspec URL，则会引发错误。

返回值：
DataFrame or TextParser

import pandas as pd
pd.read_csv('data.csv')

分块读入文件

读取前五行，指明nrows=5

import pandas as pd

df = pd.read_csv('test.csv', nrows=5)

pandas.DataFrame.to_csv

DataFrame.to_csv(path_or_buf=None, 
				sep=',', 
				na_rep='', 
				float_format=None, 
				columns=None, 
				header=True, 
				index=True, 
				index_label=None, 
				mode='w', 
				encoding=None, 
				compression='infer', 
				quoting=None, 
				quotechar='"', 
				line_terminator=None, 
				chunksize=None, 
				date_format=None, 
				doublequote=True, 
				escapechar=None, 
				decimal='.', 
				errors='strict', 
				storage_options=None)

参数：

path_or_buf：str, path object, file-like object, or None, default None。字符串或文件目录，文件路径或对象，如果未提供，结果将作为字符串返回。如果传递了一个文件对象，应该用换行= ’ '，禁用通用换行符。
sep：str, default ‘,’。输出文件的字段分隔符。
na_rep：str, default ‘’。字符串，默认为 ‘’ 浮点数格式字符串。
float_format：str, default None。浮点数格式字符串。
columns：sequence, optional。写出列名。如果给定字符串列表，则假定为列名的别名。
header：bool or list of str, default True。指定行数用来作为列名，数据开始行数。
index：bool, default True。写入行名称（索引）。
index_label：str or sequence, or False, default None
mode：str。Python写模式，默认“w”
encoding：str, optional。表示在输出文件中使用的编码的字符串，Python 2上默认为“ASCII”和Python 3上默认为“UTF-8”。
compression：str or dict, default ‘infer’。表示在输出文件中使用的压缩的字符串，允许值为“gzip”、“bz2”、“xz”，仅在第一个参数是文件名时使用。
quoting：optional constant from csv module。默认值为to_csv.QUOTE_MINIMAL。如果设置了浮点格式，那么浮点将转换为字符串，因此csv.QUOTE_NONNUMERIC会将它们视为非数值的。
quotechar：str, default ‘"’。用于引用字段的字符
line_terminator：str, optional
chunksize：int or None。一次写入行。
date_format：str, default None。字符串对象转换为日期时间对象
doublequote：bool, default True。控制一个字段内的quotechar。
escapechar：str, default None。在适当的时候用来转义sep和quotechar的字符。
decimal：str, default ‘.’。字符识别为小数点分隔符。例如。欧洲数据使用 ’，’。
errors：str, default ‘strict’
storage_options：dict, optional

返回值：
None or str

df = pd.DataFrame({'name': ['Raphael', 'Donatello'],
                   'mask': ['red', 'purple'],
                   'weapon': ['sai', 'bo staff']})
df.to_csv(index=False)
# 'name,mask,weapon\nRaphael,red,sai\nDonatello,purple,bo staff\n'