Python实现均匀拆分大文件

最新推荐文章于 2024-05-30 10:17:04 发布

巴拉巴拉朵

最新推荐文章于 2024-05-30 10:17:04 发布

阅读量2.5k

点赞数

分类专栏：文件读写 Python 文章标签： python 拆分大文件

本文链接：https://blog.csdn.net/whgyxy/article/details/102816581

版权

Python 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

文件读写

3 篇文章 0 订阅

订阅专栏

Python实现均匀拆分大文件

对于大文件业务中有时候需要进行均匀拆分后分别进行处理，这里用python实现了均匀拆分，设定拆分的目标文件数量，输入路径（必须是一个目录），会自动进行拆分

# -*- coding: utf-8 -*-
import math
import os
import shutil
import sys

# 获取运行脚本的当前目录
ROOT_PATH = os.path.abspath(os.path.join(sys.path[1], "..")) + os.sep
if os.sep == '\\':
  ROOT_PATH = 'C:\\Users\\yourusername\\Desktop\\'
FILE_SPLIT_NUM = 10  # 分割后的文件总量


def savelist(path, record, seq='\n', mode='w'):
  print('saving ' + path)
  with open(path, 'w') as f:
    f.write(seq.join(record))


# 对于大文件不会出现崩溃
def count_file_lines(path):
  print('count # reading ' + path)
  count = -1
  for count, line in enumerate(open(path, 'rU')):
    pass
  count += 1
  return count


def split_files(input_dir, file_name_prefix):
  output_dir = ROOT_PATH + "split"
  if os.path.exists(output_dir):
    shutil.rmtree(output_dir)  # 删除已存在目录
  os.makedirs(output_dir)
  print('input_dir:' + input_dir)
  print('output_dir:' + output_dir)

  total = sum([count_file_lines(input_dir + os.sep + filename) for filename in
               os.listdir(input_dir)])
  file_records_num = int(math.ceil(float(total) / FILE_SPLIT_NUM))

  cur_records_num = 0
  cur_records_list = []
  file_index = 0
  for filename in sorted(os.listdir(input_dir)):
    filepath = input_dir + os.sep + filename
    if os.path.isfile(filepath):
      with open(filepath) as f:
        print('reading # reading ' + filename)
        for line in f:
          cur_records_num += 1
          cur_records_list.append(line)
          if cur_records_num >= file_records_num:
            file_index += 1
            output_file = output_dir + os.sep + file_name_prefix + '_' + str(file_index)
            savelist(output_file, cur_records_list, '')
            cur_records_num = 0
            cur_records_list = []

  if cur_records_list and (total - file_index * file_records_num > 0):
    file_index += 1
    output_file = output_dir + os.sep + file_name_prefix + '_' + str(file_index)
    savelist(output_file, cur_records_list, '')


# argv[1]:input_path argv[2]:file_split_num argv[3]:file_name_prefix
if __name__ == '__main__':
  file_name_prefix = 'part'  # 拆分后的文件前缀
  if len(sys.argv) < 2:
    print('sys.argv length must great than 1')
    sys.exit(-1)
  input_path = sys.argv[1]
  if len(sys.argv) > 2:
    FILE_SPLIT_NUM = int(sys.argv[2])
  if len(sys.argv) > 3:
    file_name_prefix = int(sys.argv[3])
  split_files(input_path, file_name_prefix)

巴拉巴拉朵

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python实现均匀拆分大文件

Python实现均匀拆分大文件对于大文件业务中有时候需要进行均匀拆分后分别进行处理，这里用python实现了均匀拆分，设定拆分的目标文件数量，输入路径（必须是一个目录），会自动进行拆分# -*- coding: utf-8 -*-import mathimport osimport shutilimport sys# 获取运行脚本的当前目录ROOT_PATH = os.path....
复制链接

扫一扫