Java最优文件压缩方案

建议先阅读此文熟悉几种压缩方式:Java-压缩还能这么优化!喜大普奔 - 掘金 (juejin.cn)

疑问:

        mmap按理不存在数据拷贝工作,会更快,文章描述却不是如此,下面进行测试

先说结论:这里主要耗时是在write,故在多文件压缩时,mmap比较吃亏

压缩方式:

  1. mmap读取文件进行压缩
  2. apache.commons.compress包中压缩api(org.apache.commons:commons.compress:1.1.9)采用多线程
  3. 程序执行linux压缩命令tar

测试机器:

        M1 Pro(10+16核)

测试数据:

        三个文件:分别为160.7M 156.1M 32.6M(前两个为dmg文件,最后一个为jar包) 

测试案例(单位ms):

        使用三种方式各压缩三个文件:结果(第一种:8538左右 第二种:4530左右 第三种:6744左右)

        使用三种方式各压缩160.7M文件:结果(第一种:4045左右 第二种:4000左右 第三种:3196左右)

第一种方式:

        优点:无需cpu进行数据拷贝工作

        缺点:串行

第二种方式:

        优点:并行(每次拷贝4096字节到进程,然后写入各自工作线程的私有临时文件,最终合并结果)

        缺点:读取/写入需要cpu介入工作(此数据搬运工作由cpu主持),且会有上下文切换开销

结论:

        cpu资源丰富则可用apache的工具包开多线程跑,不够就执行linux命令去压缩(以往经验来说,生产cpu非高峰期占用一般在20~30之间,故直接用apache工具压缩即可)

  • 17
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
程序测试可用,直接解压导入到工程就可以,bat文件跟shell文件是用于在window跟linux上直接执行的脚本 我把开发的配置文档附上: 1.程序为定时任务,任务执行时间在bin目录下的配置文件mergeFilleUtil.properties中配置,在配置文件中,TASK_PERIOD表示任务执行时间间隔,单位为妙,如一天的时间间隔配置是86400,TASK_BEGIN_HOUR表示任务开始的小时时间,比如9点,TASK_BEGIN_MINUTE表任务开始的分钟,比如30分。 2. 程序用log4j记录日志,日志分正常信息跟错误信息两个级别,日志文件存放在log4j文件夹下。考虑到文件很多,日志解压、移动文件每解压、移动1000个记录一次,合并、删除文件每合并、删除50000个记录一次, 3. 启动任务前需配置文件解压合并的路径,本程序需配置的路径如下: 1). PROVINCE_DIR:原始文件存放的路径,必须配置到省的上一级路径,比如存放安徽省的文件路径为E:\test\rootfile\anhui,那么文件的路径必须配置为E:\test\rootfile,否则不能正确显示合并结果; 2). UN_ZIP_PATH:存放解压后的文件的路径; 3). OUT_PATH:存放合并后的文件路径; 4). DONE_FILE_PATH:存放已经解压处理过的文件; 5). DELETE_PATH:配置程序运行结束后欲删除文件的路径,如想删除多个文件夹下的文件,路径之间用逗号隔开,勿加空格,比如:E:\test\rootfile,E:\test\unZip; 4. 注意事项: 本解压合并程序处理文件的逻辑如下: 程序每次解压都去PROVINCE_DIR文件下去解压,将解压后的文件存放到UN_ZIP_PATH下,之后程序启动合并程序合并UN_ZIP_PATH下文件,将合并后的文件按照省份名称存放到OUT_PATH,一个省一个文件。当解压合并结束后,程序将PROVINCE_DIR路径下的文件移动到DONE_FILE_PATH下,并且删除PROVINCE_DIR跟UN_ZIP_PATH下文件,这样保证程序每次运行PROVINCE_DIR文件夹下的文件跟UN_ZIP_PATH下的文件都是最新未处理过的,避免了不断判断文件历史记录所带来的大量时间消耗。 所以为了保证文件解压跟合并的正确性,必须配置好DELETE_PATH路径下的文件,否则合并后的结果是不准确的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值