多线程处理大数据量查询

陵越

已于 2023-05-11 10:48:51 修改

阅读量2.3k

点赞数 7

分类专栏：线程池文章标签：多线程

于 2020-10-16 13:16:29 首次发布

本文链接：https://blog.csdn.net/weixin_43803688/article/details/109110490

版权

线程池专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最近在实现一个导入功能，数据量在5w左右，后续会持续增长，使用的是easyExcel，读取文件性能较好，但因为每条数据都要做复杂的数据校验，导致整体响应时间在三四十分钟，虽然说导入不是直接和用户交互，但现在数据量不算很大的情况下，这个响应时间还是需要优化的，读取文件速度在几秒以内，主要是在数据校验这块，所以就使用了多线程去工作。

主要代码：

import java.util.concurrent.*;
public class Test{
private static final int threadNum = Runtime.getRuntime().availableProcessors()*2;// 获取cpu核数
public void syncData(List<NewRegionReq> regionList) throws ExecutionException, InterruptedException {
        /**
         * 多线程分析数据
         */
        List<Future> list = new ArrayList<>();
        ExecutorService executor = Executors.newFixedThreadPool(threadNum);
        int num = (regionList.size() / threadNum) + 1;  //计算每个线程需要处理的记录数
        for (int j = 0; j < threadNum; j++) {
            //读取数据的起始位置
            int startNum = j * num;
            //读取数据的结束位置
            int endNum = startNum + num;
            //添加任务
            Callable<String> task = new ThredQuery(regionList, startNum, endNum);
            Future f = executor.submit(task);
            //接受返回结果
            list.add(f);
        }
        // 关闭线程池
        executor.shutdown();
        for (Future f : list) {
            // 从Future对象上获取任务的返回值，并输出到控制台
            System.out.println(f.get().toString()); //OPTION + return 抛异常
        }
        newRegionMapper.save(regionList);
        log.info("共导入数据 {} 行", regionList.size());
    }

class ThredQuery implements Callable<String> {
        private List<NewRegionReq> regionList;
        private int startNum;
        private int endNum;

        public ThredQuery(List<NewRegionReq> regionList, int startNum, int endNum) {
            this.regionList = regionList;
            this.startNum = startNum;
            this.endNum = endNum;
            //System.out.println(startNum + "\t" + endNum);
        }

        @Override
        public String call() {
            for (int i = startNum; i < endNum; i++) {
            	//自己的业务逻辑
                //if (i < regionList.size()) {
               //}
            }
            return "成功";
        }
    }
}

思路:
1:先计算出查询总量，根据服务器的cpu核数，求每个线程应处理的条数
2.使用Callable返回结果，然后聚合数据，最后处理。

这里有个问题就是线程池合理的线程数你是如何考虑的？这也是之前面试遇到的一个题：

1.先看下机器的CPU核数，然后在设定具体参数：

System.out.println(Runtime.getRuntime().availableProcessors());

即CPU核数 = Runtime.getRuntime().availableProcessors()

2.分析下线程池处理的程序是CPU密集型，还是IO密集型

CPU密集型：核心线程数 = CPU核数 + 1

IO密集型：核心线程数 = CPU核数 * 2

注：IO密集型（某大厂实践经验）

   核心线程数 = CPU核数 / （1-阻塞系数）     例如阻塞系数 0.8，CPU核数为4

   则核心线程数为20

|本期文章就到这里了，我是梦辰，可以微信搜一搜「 梦辰的架构笔记 」公众号,保证是干货!!!欢迎大家和我交流。|
|----------------------------------------------------------|–|