Pandas--read_csv,to_csv参数说明

文件读取 pandas.read_csv

pandas.read_csv(filepath_or_buffer, 
				sep=NoDefault.no_default, 
				delimiter=None, 
				header='infer', 
				names=NoDefault.no_default, 
				index_col=None, 
				usecols=None, 
				squeeze=None, 
				prefix=NoDefault.no_default, 
				mangle_dupe_cols=True, 
				dtype=None, 
				engine=None, 
				converters=None, 
				true_values=None, 
				false_values=None, 
				skipinitialspace=False, 
				skiprows=None, 
				skipfooter=0, 
				nrows=None, 
				na_values=None, 
				keep_default_na=True, 
				na_filter=True, 
				verbose=False, 
				skip_blank_lines=True, 
				parse_dates=None, 
				infer_datetime_format=False, 
				keep_date_col=False, 
				date_parser=None, 
				dayfirst=False, 
				cache_dates=True, 
				iterator=False, 
				chunksize=None, 
				compression='infer', 
				thousands=None, 
				decimal='.', 
				lineterminator=None, 
				quotechar='"', 
				quoting=0, 
				doublequote=True, 
				escapechar=None, 
				comment=None, 
				encoding=None, 
				encoding_errors='strict', 
				dialect=None, 
				error_bad_lines=None, 
				warn_bad_lines=None, 
				on_bad_lines=None, 
				delim_whitespace=False, 
				low_memory=True, 
				memory_map=False, 
				float_precision=None, 
				storage_options=None)

参数:

  • filepath_or_buffer:str, path object or file-like object.字符串。任何有效的字符串路径都可以,网址也行。
  • sep:str, default ‘,’。字符串,表示分隔符,默认为’,’ .。一个字符及以上都可以,注意如果是转义字符要加’’
  • delimiter:str, default None。字符串,sep的别名,默认None。
  • header:int, list of int, None, default ‘infer’。用作列名的行号,默认是0(第一行),如果没有列名默认None。
  • names:array-like, optional。结果的列名列表,与header=None共同使用。
  • index_col:int, str, sequence of int / str, or False, optional, default None。用作结果中行索引的列号或列名,可以是一个单一的名称\数字,也可以是一个分层索引。
  • usecols:list-like or callable, optional。返回列的子集。
  • squeeze:bool, default False。如果解析的数据仅包含一列,则返回一个Series。
  • prefix:str, optional。没有标题时要添加到列号的前缀
  • mangle_dupe_cols:bool, default True。重复的列将被指定为“ X”,“ X.1”,……“ X.N”,而不是“ X”……“ X”。如果列中的名称重复,则False将导致数据被覆盖。
  • dtype:Type name or dict of column -> type, optional。数据或列的数据类型。
  • engine:{‘c’, ‘python’, ‘pyarrow’}, optional。要使用的解析器引擎。C引擎速度更快,而python引擎当前功能更完善。
  • converters:dict, optional。包含列名称映射到函数的字典,例如{‘foo’: f}会把函数f应用到’foo’列。
  • true_values:list, optional。视为True的值
  • false_values:list, optional。视为False的值
  • skipinitialspace:bool, default False。在定界符后跳过空格。
  • skiprows:list-like, int or callable, optional。在文件开始处要跳过的行号(索引为0)或要跳过的行数(整数)。
  • skipfooter:int, default 0。忽略文件尾部的行数。
  • nrows:int, optional。从文件开头处读入的行数。
  • na_values:scalar, str, list-like, or dict, optional。需要用NA替换的值序列。
  • keep_default_na:bool, default True。解析数据时是否包括默认的NaN值。
  • na_filter:bool, default True。检测缺失值标记(空字符串和na_values的值)。请注意,如果将na_filter传递为False,则将忽略keep_default_na和 na_values参数。
  • verbose:bool, default False。打印各种解析器输出的信息,比如位于非数值列中的缺失值的数量。
  • skip_blank_lines:bool, default True。如果为True,跳过空白行,并且不解释为NaN值。
  • parse_dates:bool or list of int or names or list of lists or dict, default False。尝试将数据解析为datetime,默认为False。如果为True,将尝试解析所有的列。也可以指定列号或列名列来进行解析。如果列表的元素是元组或列表,将会把多个列组合在一起进行解析(例如日期\时间将拆分成两列)
  • infer_datetime_format:bool, default False。如果启用True和parse_dates,则pandas将尝试推断列中日期时间字符串的格式,并且如果可以推断出日期格式,就会切换到更快的解析它们的方法。
  • keep_date_col:bool, default False。如果连接列到解析日期上,保留被连接的列,默认为False。
  • date_parser:function, optional。用于解析日期的函数。
  • dayfirst:bool, default False。解析非明确日期时,DD / MM格式的日期,国际和欧洲格式。
  • cache_dates:bool, default True。如果为True,则使用唯一的转换日期缓存来应用datetime转换。
  • iterator:bool, default False。返回TextFileReader对象,用于零散地读入文件。
  • chunksize:int, optional。用于迭代的块大小。
  • compression:str or dict, default ‘infer’。用于对磁盘数据进行即时解压缩。设置为“无”将不进行解压缩。
  • thousands:str, optional。千位分隔符。
  • decimal:str, default ‘.’。识别为小数点的字符(例如,对于欧洲数据,请使用“,”)。
  • lineterminator:str (length 1), optional。用于将文件分成几行的字符。仅对C解析器有效。
  • quotechar:str (length 1), optional。用于表示引用项目的开始和结束的字符。
  • quoting:int or csv.QUOTE_* instance, default 0
  • doublequote:bool, default True。如果指定quotechar而未使用引号QUOTE_NONE,则指示是否将一个字段内的两个连续的quotechar元素解释为单个quotechar元素。
  • escapechar:str (length 1), optional。一字符字符串,用于转义其他字符。
  • comment:str, optional。在行结尾处分隔注释的字符。
  • encoding:str, optional。读/写时用于UTF的编码(例如’utf-8’)。
  • encoding_errors:str, optional, default “strict”。默认情况下,具有太多字段的行(例如,带有太多逗号的csv行)将引发异常,并且不会返回任何DataFrame。如果为False,则这些“坏行”将从返回的DataFrame中删除。
  • dialect:str or csv.Dialect, optional。如果提供的话,该参数将覆盖为以下参数的值(默认或不):delimiter, doublequote, escapechar, skipinitialspace, quotechar, and quoting。
  • warn_bad_lines:bool, optional, default None。如果error_bad_lines为False,而warn_bad_lines为True,则将为每个“坏行”输出警告。
  • on_bad_lines:{‘error’, ‘warn’, ‘skip’} or callable, default ‘error’
  • delim_whitespace:bool, default False。指定是否将空格(例如或)用作分隔符。
  • low_memory:bool, default True。在内部对文件进行分块处理,从而在解析时减少了内存使用。
  • memory_map:bool, default False。如果为filepath_or_buffer提供了文件路径,则将文件对象直接映射到内存中,然后直接从那里访问数据。使用此选项可以提高性能,因为不再有任何I / O开销。
  • float_precision:str, optional。指定C引擎应将哪个转换器用于浮点值。
  • storage_options:dict, optional。解析特殊的URL。如果为该参数提供非fsspec URL,则会引发错误。

返回值:
DataFrame or TextParser

import pandas as pd
pd.read_csv('data.csv')

分块读入文件

  1. 读取前五行,指明nrows=5
import pandas as pd

df = pd.read_csv('test.csv', nrows=5)

pandas.DataFrame.to_csv

DataFrame.to_csv(path_or_buf=None, 
				sep=',', 
				na_rep='', 
				float_format=None, 
				columns=None, 
				header=True, 
				index=True, 
				index_label=None, 
				mode='w', 
				encoding=None, 
				compression='infer', 
				quoting=None, 
				quotechar='"', 
				line_terminator=None, 
				chunksize=None, 
				date_format=None, 
				doublequote=True, 
				escapechar=None, 
				decimal='.', 
				errors='strict', 
				storage_options=None)

参数:

  • path_or_buf:str, path object, file-like object, or None, default None。字符串或文件目录,文件路径或对象,如果未提供,结果将作为字符串返回。如果传递了一个文件对象,应该用换行= ’ ',禁用通用换行符。
  • sep:str, default ‘,’。输出文件的字段分隔符。
  • na_rep:str, default ‘’。字符串,默认为 ‘’ 浮点数格式字符串。
  • float_format:str, default None。浮点数格式字符串。
  • columns:sequence, optional。写出列名。如果给定字符串列表,则假定为列名的别名。
  • header:bool or list of str, default True。指定行数用来作为列名,数据开始行数。
  • index:bool, default True。写入行名称(索引)。
  • index_label:str or sequence, or False, default None
  • mode:str。Python写模式,默认“w”
  • encoding:str, optional。表示在输出文件中使用的编码的字符串,Python 2上默认为“ASCII”和Python 3上默认为“UTF-8”。
  • compression:str or dict, default ‘infer’。表示在输出文件中使用的压缩的字符串,允许值为“gzip”、“bz2”、“xz”,仅在第一个参数是文件名时使用。
  • quoting:optional constant from csv module。默认值为to_csv.QUOTE_MINIMAL。如果设置了浮点格式,那么浮点将转换为字符串,因此csv.QUOTE_NONNUMERIC会将它们视为非数值的。
  • quotechar:str, default ‘"’。用于引用字段的字符
  • line_terminator:str, optional
  • chunksize:int or None。一次写入行。
  • date_format:str, default None。字符串对象转换为日期时间对象
  • doublequote:bool, default True。控制一个字段内的quotechar。
  • escapechar:str, default None。在适当的时候用来转义sep和quotechar的字符。
  • decimal:str, default ‘.’。字符识别为小数点分隔符。例如。欧洲数据使用 ​​’,’。
  • errors:str, default ‘strict’
  • storage_options:dict, optional

返回值:
None or str

df = pd.DataFrame({'name': ['Raphael', 'Donatello'],
                   'mask': ['red', 'purple'],
                   'weapon': ['sai', 'bo staff']})
df.to_csv(index=False)
# 'name,mask,weapon\nRaphael,red,sai\nDonatello,purple,bo staff\n'
  • 4
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值