python多进程读取大量小文件

知识不足恐惧症

已于 2023-03-15 11:26:25 修改

阅读量1k

点赞数 2

分类专栏：技术杂谈文章标签： python 开发语言

于 2023-03-15 11:17:53 首次发布

本文链接：https://blog.csdn.net/yaogepila/article/details/129443026

版权

背景

最近参加一个算法比赛，比赛的数据很大，解压后大约35G左右，由712839个小csv文件组成，每个文件大小在几kb大小不等，每个文件里包含一列、若干行数据，且每个文件的数据长度不一致，甚至会遇到空文件。不了解数据具体情况前，进行特征工程时候，至少需要遍历一遍所有文件，如果使用pandas的read_csv方法去循环遍历读取，速度慢的令人发指，比赛提交作品时甚至会超时（测试数据在线上，只能通过运行测试代码，线上处理数据后进行预测）。

数据分析

数据现况：

每个csv文件只有一列数据，数据长度不等；
文件名为样本名；
每个样本可能会有多个csv文件，每个csv文件都是该样本的特征；
数据除了列名外，只包含数字类型特征，存在空文件情况；
每个样本的csv特征文件存放在不同的文件夹路径中

目标数据格式：

一个文件包含一个样本的全部原始特征数据，文件名为样本名

解决思路

因为目标是将一个样本的所有特征数据存放到一个文件中，但每个特征数据长度不一致，而且并不存放在一起，所以不能直接一次读取一个样本的所有特征文件。并且最好也不要用numpy数组存放，因为数据长度不等，而numpy数组必须要补齐，个别文件长度异常的大，会导致最终的样本数据非常占空间。
所以想到可以用json保存数据，每个特征用字典存放，key是特征名称，value为具体的特征数据，一个json文件中包含一个字典，每个字典中用不同的key区分不同特征数据，读取速度也很快。
多进程方面，可以将所以的文件路径放到一个list中，利用多进程分别处理其中每个文件。

具体做法

获取所有文件的路径，去重；
按照文件名进行分组处理，一个样本的所有特征文件存放到一起；
open方法取代pandas的read_csv方法读取文件，按照样本先分组，每组内多个特征文件用多线程处理，同时每个样本组用多进程处理；

代码

单个样本完整路径为：
D:\train\OK\P1010\MeasuredData_I_LINE-VTS1_TCU_Raw\000dbac844493238aca63e33b28a0113.csv
其中 P1010@MeasuredData_I_LINE-VTS1_TCU_Raw 为该样本的特征

获取所有的数据路径

import json
import sys
import os
import re
import math
import datetime
from multiprocessing import Pool
from multiprocessing.dummy import Pool as ThreadPool

import numpy as np
import pandas as pd

def get_file(path):

    files_list = []

    for home, dirs, files in os.walk(path):
        for f in files:
            files_list

最低0.47元/天解锁文章

知识不足恐惧症

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
python多进程读取大量小文件

最近参加一个算法比赛，比赛的数据很大，解压后大约35G左右，由712839个小csv文件组成，每个文件大小在几kb大小不等，每个文件里包含一列、若干行数据，且每个文件的数据长度不一致，甚至会遇到空文件。所以想到可以用json保存数据，每个特征用字典存放，key是特征名称，value为具体的特征数据，一个json文件中包含一个字典，每个字典中用不同的key区分不同特征数据，读取速度也很快。多进程方面，可以将所以的文件路径放到一个list中，利用多进程分别处理其中每个文件。，这还是在没有用全部核的情况下。
复制链接

扫一扫

专栏目录