python 超大CSV文件提高加载速度

  1. 构造一个大的csv
import pandas as ps
dict_array=[]
for i in range(30000000):
    dict_array.append({"cloumn1":i,"column2":"","column3":i,"column4":"我就不信了,我写一个这么长的文本,到底对这个csv会产生多大的影响"})
    

data = ps.DataFrame(dict_array)
data.to_csv(r'C:\Users\84977\Desktop\ellis.csv',index=False)
  1. 使用pandas读数据,看看耗时
import pandas as pd

import time
start = time.time()
dask_df = pd.read_csv(r'C:\Users\84977\Desktop\ellis.csv')
end = time.time()
print("Read csv with dask: ",(end-start),"sec")

Read csv with dask: 27.334847688674927 sec
3. 使用chunksize读取pandas

import pandas as pd
#加了iterator=True 才会一直往下读csv,否则读了前100万行就退出了
import time
start = time.time()
dask_df = pd.read_csv(r'C:\Users\84977\Desktop\ellis.csv',chunksize=1000000,dask_df = pd.read_csv(r'C:\Users\84977\Desktop\ellis.csv',chunksize=1000000,iterator=True)
end = time.time()
print("Read csv with dask: ",(end-start),"sec")

for i,data in enumerate(dask_df):
    print(data)

Read csv with dask: 0.00599980354309082 sec
4. 使用dask 读取csv

pip install dask
from dask import dataframe as dd
import time
start = time.time()
dask_df = dd.read_csv(r'C:\Users\84977\Desktop\ellis.csv')
end = time.time()
print("Read csv with dask: ",(end-start),"sec")

Read csv with dask: 0.007996797561645508 sec
你看这个速度是不是很快

https://www.coiled.io/blog/dask-read-csv-to-dataframe

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值