一般处理大数据需要使用Pandas,而少量数据可以直接使用python内置库解析
使用pandas
首先当然要
import pandas as pd
1.读excel文件
Data=pd.read_excel(*args)
2.读csv文件
csv文件实际上是一种格式特殊的txt文件,一般由’,’ ‘;’ '\t ’ '\n’等分隔符间隔开
Data=pd.read_csv(*args)
3.读txt文件
Data=pd.read_txt(*args)
Data=pd.read_txt(*args)
常用参数:
io:必有,指定外部文件的地址目录
index_col:指定索引列,可以是数字(列号)也可是字符串(列名)
nrows/ncols:需要读取的行/列数
names:另取列名,需要和实际列数相等,比如:names=[‘num’,‘name’,‘age’]。如果要覆盖原来列名还需要使用header=0忽略现有列名
parse_dates:强制将数据作为日期读入
几点强调
- pandas会自动识别到外部文件的第一行包含列名,并自动使用(如果有列名的话),索引从第二行开始。
- pandas读取文件后会返回DataFrame类型,DataFrame与list很像,但又有所区别,使用时需要注意
- 如果不指定索引列,则从0开始自动添加索引
补充:直接使用python内置库解析
一般处理大数据需要使用Pandas,而少量数据可以直接使用python内置库解析
import csv
with open ('text.txt') as My_file:
my_reader=csv.reader(My_file,delimiter=',')
首先使用Python内置的open()函数将外部文件作为文本文件打开,
然后将其传递给reader对象,
最后由reader对象完成读取工作。
值得注意的是reader对象返回的每一行都是一个String元素列表,返回的第一行是列名
reader对象的可选参数
delimiter:指定分隔每个字段的字符,默认为逗号
quotechar:指定用于包围包含分隔字符的字段的字符,默认双引号
escapechar:指定用于转义分隔符的字符,默认无转义字符
也可以将数据直接读入进字典,而不必去处理单个的String列表
import csv
with open ('text.txt') as My_file
my_reader=csv.DictReader(My_file,delimiter=',')
文件的第一行用于构建字典的键
fieldsnames:为包含他们的列表来指定自己的列