最近在做一个数据同步功能,从一个200多万的数据表中进行数据清洗,然后根据逻辑再更新回去。
在刚开始做的时候,按照我的分析,应该一个线程去读,然后放到blockingqueue中,多个线程去处理程序就够了。毕竟读并不会很慢,还有索引,只是逻辑处理时候比较慢,因为还要去查别的数据再更新数据。
但是最后我发现,越到最后查询越慢,我多线程写已经变成单线程了(因为线程都在空闲,blockingqueue中无数据),然后我才发现原来是到最后读的满了。越到后面limit分页性能和代价越大(100多万时候查询1000条大概40多秒)。
然后我就尝试使用了延迟关联的处理。
sql如下:
(原sql)
SELECT * FROM `table` t order by t.c1, t.c2 LIMIT 1360049,1000
(延迟关联)
SELECT * from table p inner join (SELECT t.UID FROM `table` t order by t.c1, t.c2 LIMIT 2020049,1000) x on p.UID=x.UID;
主要是延迟关联使用了索引覆盖,不需要再去全表查然后排序,性能大大提升了不少