已识乾坤大,犹怜草木青。
——旷怡亭口占
前言
最近接到一个任务,将mysql
中的数据同步到elasticsearch
中,要求异步执行,接口不必返回结果,接到请求后后台默默执行就行了。这种情况下其实单线程一页一页去读取写入就可以了,因为不必立刻返回请求结果后台执行5分钟还是十分钟只要能把数据加入到es中就可以了。
但是,身为一个优秀的程序员 怎么只能考虑功能的实现不考虑效率问题呢😎😎😎(时间允许的情况下考虑效率对已完成功能的代码做优化),这里就用到了多线程分批导入。注意这里一定要分批,不要所有线程一块去执行 要按批次。例如有100万数据,2000条执行一次,每批次五个线程去执行,等待每批次完成后再开启下一次,否则100万数据一上来500个线程同时去执行,假如线程池设置过小就会导致部分请求直接拒绝,最后实际执行不到500次,多线程也不是越多越好,线程数需要结合实际情况测试反复推理选择最合适的并发数,另一方面一台服务器也肯定不是就跑你一个程序,操作数据量太大的话,一上来你就并发几百