python多进程读取大量小文件

背景

最近参加一个算法比赛,比赛的数据很大,解压后大约35G左右,由712839个小csv文件组成,每个文件大小在几kb大小不等,每个文件里包含一列、若干行数据,且每个文件的数据长度不一致,甚至会遇到空文件。不了解数据具体情况前,进行特征工程时候,至少需要遍历一遍所有文件,如果使用pandas的read_csv方法去循环遍历读取,速度慢的令人发指,比赛提交作品时甚至会超时(测试数据在线上,只能通过运行测试代码,线上处理数据后进行预测)。

数据分析

数据现况:

  • 每个csv文件只有一列数据,数据长度不等;
  • 文件名为样本名;
  • 每个样本可能会有多个csv文件,每个csv文件都是该样本的特征;
  • 数据除了列名外,只包含数字类型特征,存在空文件情况;
  • 每个样本的csv特征文件存放在不同的文件夹路径中

目标数据格式:

  • 一个文件包含一个样本的全部原始特征数据,文件名为样本名

解决思路

因为目标是将一个样本的所有特征数据存放到一个文件中,但每个特征数据长度不一致,而且并不存放在一起,所以不能直接一次读取一个样本的所有特征文件。并且最好也不要用numpy数组存放,因为数据长度不等,而numpy数组必须要补齐,个别文件长度异常的大,会导致最终的样本数据非常占空间。
所以想到可以用json保存数据,每个特征用字典存放,key是特征名称,value为具体的特征数据,一个json文件中包含一个字典,每个字典中用不同的key区分不同特征数据,读取速度也很快。
多进程方面,可以将所以的文件路径放到一个list中,利用多进程分别处理其中每个文件。

具体做法

  1. 获取所有文件的路径,去重;
  2. 按照文件名进行分组处理,一个样本的所有特征文件存放到一起;
  3. open方法取代pandas的read_csv方法读取文件,按照样本先分组,每组内多个特征文件用多线程处理,同时每个样本组用多进程处理;

代码

单个样本完整路径为:
D:\train\OK\P1010\MeasuredData_I_LINE-VTS1_TCU_Raw\000dbac844493238aca63e33b28a0113.csv
其中 P1010@MeasuredData_I_LINE-VTS1_TCU_Raw 为该样本的特征

  1. 获取所有的数据路径
import json
import sys
import os
import re
import math
import datetime
from multiprocessing import Pool
from multiprocessing.dummy import Pool as ThreadPool

import numpy as np
import pandas as pd

def get_file(path):

    files_list = []

    for home, dirs, files in os.walk(path):
        for f in files:
            files_list
  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值