使用delete_by_query的时候发现了一个问题,就是删除效率太低。删除210000的数据量的时候大概要用50多秒的时间,而这才是我工程中一个小时的数据量。删除一天的数据量就要20多分钟,这样的效率是没办法接受的。
然后寻找调优策略,发现es的官方API中是有一下两个参数:
1.scroll_size
这个参数是执行删除的时候,每次每个线程会查询的数据量,然后进行删除。
默认是100,就是说每个线程每次都会查询出100条数据然后再删除。
2.slices
这个就相当于开启的线程数,同时会有多少个线程执行查询然后删除程序。
默认是1,就是同时只会有一个线程进行查询删除操作。
解决策略:
要在请求url的后面加上这两个参数就可以了。比如这样:
原:
url = EsHttpUrl+"/"+names[i]+"/_delete_by_query";
现:
url = EsHttpUrl+"/"+names[i]+"/_delete_by_query?scroll_size=3000&slices=5";
加上之后会返回给具体每个线程处理数据的情况。
可以看到,效率已经提升了好几倍了,但是具体对于我的工程来说最优的方案我还在测试,所以没办法给出具体的数据,不过这个大哥的博客里面提到了几种方案可以参考一下:ElasticSearch-delete_by_query大数据量删除时,导致SocketTimeout的问题