CSV File Reading and Writing(未完待续)

CSV File Reading and Writing

什么是CSV?

所谓的CSV(逗号分隔值)格式是电子表格和数据库最常见的导入和导出格式。CSV格式在RFC 4180中以标准化的方式描述格式之前已经使用了很多年。缺少定义良好的标准意味着不同应用程序生成和使用的数据常常存在细微的差异。这些差异可能使处理来自多个源的CSV文件变得很麻烦。尽管分隔符和引用字符各不相同,但是总体格式非常相似,可以编写一个模块来有效地操作这些数据,从而向程序员隐藏读取和写入数据的细节。

csv模块实现了以csv格式读写表格数据的类。它允许程序员在不了解Excel使用的CSV格式的精确细节的情况下说,“以Excel首选的格式编写数据”或“从这个由Excel生成的文件中读取数据”。程序员还可以描述其他应用程序可以理解的CSV格式,或者定义自己专用的CSV格式。

csv模块的读写器和写入器对象读取和写入序列。程序员还可以使用DictReader和DictWriter类读写字典形式的数据。

模块内容

csv模块定义了以下功能:
**csv.reader(csvfile, dialect=‘excel’, fmtparams):

  • csvfile是list对象和file对象
  • dialect csv的方言的参数
  • fmtparams 关键字参数

返回一个reader对象,该对象将遍历给定csvfile中的行。csvfile可以是任何支持迭代器协议的对象,每次调用它的_next__()方法时返回一个字符串——file对象和list对象都是合适的。如果csvfile是file对象,则应该用newline= "打开它。可以提供一个可选的方言参数,用于定义一组特定于特定CSV方言的参数。它可以是方言类的子类的实例,也可以是list_()函数返回的字符串之一。可以提供其他可选的fmtparams关键字参数,以覆盖当前方言中的各个格式化参数。有关方言和格式参数的详细信息,请参见方言和格式参数一节。

从csv文件读取的每一行都作为字符串列表返回。除非指定了QUOTE_NONNUMERIC格式选项(在这种情况下,非引号字段被转换为浮点数),否则不会执行自动数据类型转换。

>>> import csv
>>> with open('eggs.csv', newline='') as csvfile:
...     spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
...     for row in spamreader:
...         print(', '.join(row))
Spam, Spam, Spam, Spam, Spam, Baked Beans
Spam, Lovely Spam, Wonderful Spam

**csv.writer(csvfile, dialect=‘excel’, fmtparams):
返回一个writer对象,该对象负责将用户的数据转换为给定的类文件对象上带分隔符的字符串。csvfile可以是任何带有write()方法的对象。如果csvfile是file对象,则应该用newline= "[1] "打开它。可以提供一个可选的方言参数,用于定义一组特定于特定CSV方言的参数。它可以是方言类的子类的实例,也可以是list_()函数返回的字符串之一。可以提供其他可选的fmtparams关键字参数,以覆盖当前方言中的各个格式化参数。有关方言和格式参数的详细信息,请参见方言和格式参数一节。为了尽可能容易地与实现DB API的模块进行接口,None值被编写为空字符串。虽然这不是一个可逆的转换,但它可以更容易地将SQL NULL数据值转储到CSV文件中,而无需对游标返回的数据进行预处理。卖*的电话。所有其他非字符串数据在编写之前都使用str()进行字符串化。

import csv
with open('eggs.csv', 'w', newline='') as csvfile:
    spamwriter = csv.writer(csvfile, delimiter=' ',
                            quotechar='|', quoting=csv.QUOTE_MINIMAL)
    spamwriter.writerow(['Spam'] * 5 + ['Baked Beans'])
    spamwriter.writerow(['Spam', 'Lovely Spam', 'Wonderful Spam'])

**csv.register_dialect(name[, dialect[, fmtparams]]):
把方言和名字联系起来。名称必须是字符串。可以通过传递方言的子类来指定方言,也可以通过传递fmtparams关键字参数来指定方言,或者两者都指定,关键字参数覆盖方言的参数。有关方言和格式参数的详细信息,请参见方言和格式参数一节。

csv.unregister_dialect(name):
从方言注册表中删除与名称关联的方言。如果名称不是已注册的方言名称,则会引发错误。

csv.get_dialect(name):
返回与名称关联的方言。如果名称不是已注册的方言名称,则会引发错误。这个函数返回一个不可变的方言。

csv.list_dialects():
返回所有已注册方言的名称。

csv.field_size_limit([new_limit]):
返回解析器允许的当前最大字段大小。如果给定new_limit,这就变成了新的极限。

csv模块定义了以下类:
class csv.DictReader(f, fieldnames=None, restkey=None, restval=None, dialect=‘excel’, *args, **kwds)
创建一个对象,该对象的操作类似于普通阅读器,但将每一行中的信息映射到OrderedDict, OrderedDict的键由可选fieldnames参数提供。

fieldnames参数是一个序列。如果省略字段名,文件f的第一行中的值将用作字段名。无论字段名是如何确定的,有序字典都会保留它们的原始顺序。’

如果一行的字段多于字段名,则将其余数据放入列表中,并使用restkey指定的字段名(默认为None)存储。如果非空行具有比字段名更少的字段,则用None填充缺失的值。

所有其他可选参数或关键字参数都传递给底层reader实例。

>>> import csv
>>> with open('names.csv', newline='') as csvfile:
...     reader = csv.DictReader(csvfile)
...     for row in reader:
...         print(row['first_name'], row['last_name'])
...
Eric Idle
John Cleese

>>> print(row)
OrderedDict([('first_name', 'John'), ('last_name', 'Cleese')])
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值