背景: 文件导入大概五万条数据,过程中有很多其它的查询,计算等操作,最后执行保存或更新,单机运行就大概用了五个小时,完全无法接受,上次相同的操作几千条数据的导入用了几分钟,这一次成指数增长,应该有条件查询中的笛卡尔乘积过亿了,导致如此缓慢.通过优化后时间缩短到了几分钟.
解决方法与思路: 不限于jpa
- 先从代码上做优化,把之前的一边查询计算,一边保存的操作做重新梳理.
先查询,计算 将做后的计算结果保存到一个临时的list中,最后使用jpa 自带的
saveAll(Iterable
entities)
功能方法一次性把list保存.
因为我用了事物,就只把保存功能单独放到了事务之中,因为如果代码全放在事物中,计算过程中一些set操作,也会执行update操作语句,会降低效率.因为单独每一条save语句会连接数据库,写操作,关闭连接,十分消耗mysql.
过程中可以打印出语句,前面的都是select 语句 ,最后的都是insert或者update语句就对了.
2. yml配置设置 ,最重的是batch_size 表示每执行500条就保存到数据库中,起到清空缓存的作用,可根据自己的主机硬件条件找到合适的数值.
jpa:
hibernate:
ddl-auto: update
jdbc:
#每批500条提交
batch_size: 500
batch_versioned_data: true
- 最后就是数据库字段的优化的,有查询多的字段添加上索引,也会大大优化查询速度.我用的是普通索引.
ALTER TABLEtable_name
ADD INDEX index_name (column
)
部分代码示例,可以将保存方法抽取出来,单独放在事物中,保证了要么全部成功,要么全部失败.
saveAll方法实测也就几秒钟的时间,其它的几分钟都用在其它的查询与计算中了.