数据可以存储成许多不同的格式和文件类型。某些格式存储的数据很容易被机器处理,而另一些格式存储的数据则容易被人工读取。微软的 Word 文档属于后者,而 CSV、JSON和 XML 文件则属于前者。
以易于机器理解的方式来存储数据的文件格式,通常被称作机器可读的
(machine readable)。常见的机器可读格式包括:
• 逗号分隔值(Comma-Separated Values,CSV)
• JavaScript 对象符号(JavaScript Object Notation,JSON)
• 可扩展标记语言(eXtensible Markup Language,XML)
CSV 文件
CSV 文件(简称为 CSV)是指将数据列用逗号分隔的文件。文件的扩展名是 .csv。另一种数据类型,叫作制表符分隔值(tab-separated values,TSV)数据,有时也与 CSV归为一类。TSV 与 CSV 唯一的不同之处在于,数据列之间的分隔符是制表符(tab),而不是逗号。文件的扩展名通常是 .tsv,但有时也用 .csv 作为扩展名。从本质上来看,.tsv 文件与 .csv 文件在 Python 中的作用是相同的。
如何导入CSV文件
import csv
csvfile = open('data-text.csv', 'rb')
reader = csv.reader(csvfile)
for row in reader:
print row
ps:csv是Python标准库stdlib中的一部分
rb的意思是我们以只读方式和二进制方式打开文件,另一种是 wb 或 b ,后者表示以二进制方式写入