Elasticsearch 分页查询from VS scroll

    由于工作需要,最近用到了ES的scroll 滚动分页查询,再此总结强化一下,如有错误,请多多指教。

    Elasticsearch 是一个实时的分布式搜索与分析引擎,被广泛用来做全文搜索、结构化搜索、结果分析。如果搜索的结果比较小时,效率比较不明显,当结果数量是百万级,如果还使用分页检索,效率就会比较差。

    分页检索即from-size形式,from指的是从哪里开始拿数据,size是结果集中返回的文档个数。from-size的工作原理是:如size=10&from=100,那么Elasticsearch会从每个分片里取出110条数据,然后汇集到一起再排序,取出101~110序号的文档。并且每次请求,它都会重新排一次序,拿出符合要求的数据。那如果from为50万的时候呢?由此可见,from-size的效率必然不会很高,特别是分页越深,需要排序的数据越多,其效率就越低。

    这时就可以使用Scroll。Scroll的工作原理的它先根据条件做一次初始化搜索,把所有符合要求的结果缓存起来形成一个快照,然后持续地、批量地从快照里拉取数据直到没有数据剩下。而这时对索引数据的插入、删除、更新都不会影响遍历结果,因此scroll 并不适合用来做实时搜索。如何搜索类型是Scan,则告诉Elasticsearch不用对结果集进行排序,只要分片里还有结果可以返回,就返回一批结果。scroll- scan使用中不能跳页获取结果,必须一页接着一页获取。


实际返回的数量是size*分片数

为了实现分页查询Elasticsearch提出了一种scroll滚动的方式。使用scroll,每次只能获取一页的内容,并返回一个scroll_id。通过这个scroll_id可以不断地获取下一页的内容。值得注意的是,scroll不适用于有跳页的情景。为了使用scroll,我们需要将from设置为0,并指定size来确定每次查询返回的数量。同时,还可以通过设置scroll_id的过期时间来控制scroll的有效期。比如,可以通过设置scroll=5m来保留scroll_id 5分钟可用。 在Java中处理scroll分页查询时,可以使用循环查询的方式。首先进行一次初始化查询,按照需要的查询条件处理,并加上scroll参数。之后的查询都可以使用GET /_search/scroll/接口传递scroll_id来查询。如果返回的数据为空,则表示已经查询完毕,可以终止循环。这样就实现了分页查询的效果。 另外,对于初始化查询,我们可以传递参数scroll=5m给Elasticsearch,它会返回一个base64编码的长字符串作为_scroll_id。这个_scroll_id可以在下次查询时传入,用于继续获取下一页的数据。同时,可以通过指定size参数来控制每次滚动拉取的数据量。需要注意的是,如果做了分片,查询结果可能会超过指定的size大小。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [ES(elasticsearch) - 三种姿势进行分页查询](https://blog.csdn.net/ChengHuanHuaning/article/details/117696054)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [ES - 滚动查询(scroll)](https://blog.csdn.net/qq_36428889/article/details/118727603)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不是码农的农民

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值