摘要
python读取外部csv格式数据,【此处数据非大数据(>6TB),读取大数据利用分段方法】
主要介绍使用python自带的函数read、readlines读取数据转换为数据框,和使用pandas自带的函数read_csv读取csv数据的对比
1、readlines函数读取数据
数据是csv格式,按readlines读取时,每次读取一行,并且把这一行数据作为一个字符串对象;
file="train.csv"
with open(file) as f:
row=[]
for line in f.readlines():
v=list(line.strip().split(","))
row.append(v)
train=pd.DataFrame(row,columns=row[0])
如下,若csv文件如下:
name | age | height |
xiaohong | 18 | 90 |
xiaobai | 20 | 100 |
ming | 20 | NA |
用readlines读取的数据是
['name,age,height','xi