ES_深度分页概念与解决方案

最新推荐文章于 2024-08-12 15:55:14 发布

zelxnxy

最新推荐文章于 2024-08-12 15:55:14 发布

阅读量123

点赞数

文章标签： elasticsearch 大数据搜索引擎

原文链接：https://blog.csdn.net/weixin_49904442/article/details/126817815

版权

一.深度分页问题
假如现在要查询990~1000的数据，查询逻辑要这么写：

GET /hotel/_search
{
"query": {
"match_all": {}
},
"from": 990, # 分页开始的位置，默认为0
"size": 10, # 期望获取的文档总数
"sort": [
{"price": "asc"}
]
}
1
2
3
4
5
6
7
8
9
10
11
这里是查询990开始的数据，也就是第990~第1000条数据。

单节点es的分页查询逻辑
elasticsearch内部分页时，必须先查询 0~1000条，然后截取其中的990 ~ 1000的这10条：

查询TOP1000，如果es是单点模式，这并无太大影响。

es集群的分页查询逻辑
但是elasticsearch将来一定是集群，例如我集群有5个节点，我要查询TOP1000的数据，并不是每个节点查询200条就可以了：因为节点A的TOP200，在另一个节点可能排到10000名以外了。

因此要想获取整个集群的TOP1000，必须先查询出每个节点的TOP1000，汇总结果后，重新排名，重新截取TOP1000。

那如果我要查询9900~10000的数据呢？是不是要先查询TOP10000呢？那每个节点都要查询10000条？汇总到内存中？

当查询分页深度较大时，汇总数据过多，对内存和CPU会产生非常大的压力，因此elasticsearch会禁止from+ size 超过10000的请求。

二.深度分页解决方案
1、限制请求
Es进行限制的10000+的数据.而淘宝则对深度分页处理则很直接,限制分页页数.超过100页后面的数据,基本认为是无效数据.则会丢弃这些数据.

2、scroll：
原理 : 将排序后的文档id形成快照，保存在内存。官方已经不推荐使用。

使用scroll滚动搜索,一次性查出一部分数据,降低服务器的压力. 第一次查询需要设置超时时间, 在第一次查询后生成 _scroll_id 下次查询会携带这个值. 把它作为起始只查询对应size个数据.

3、search after：
原理分页时需要排序，原理是从上一次的排序值开始，查询下一页数据。官方推荐使用的方式。

第一次查询

下一次查询

注意
要保证排序值是唯一不重复的，否则分页时可能会漏掉数据。

期望结果：

第一次查询：最后一条数据的排序值是 score=47，price=245。 score=47，price=245的数据只有一条
下一次查询：查询 score=47，price=245之后的数据，没有任何问题
但是如果：

score=45，price=245的数据有多条，假定为doc1、doc2
第一次查询第一页时，顺序是doc1、doc2，这一页刚好查询到了doc1
查询下一页时，顺序是doc2、doc1，从第2条开始，查询到了doc1
最终就漏掉了doc2
解决方案：

建议保证排序条件值不重复，就不会出现上面的问题了
例如：以score降序、price升序、_id降序。 _id是文档的唯一标识，是不重复的

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

zelxnxy CSDN认证博客专家 CSDN认证企业博客

码龄12年

3: 原创

59万+: 周排名

224万+: 总排名

2万+: 访问

: 等级

167: 积分

14: 粉丝

29: 获赞

13: 评论

69: 收藏

私信

关注

热门文章

最新评论

config、apollo、nacos三种微服务配置中心深度对比
weixin_59867722: 博主，我接到一个需求是将springcloudconfig改成nacosconfig 你这篇文章让我区分出来了
Flowable工作流之Flowable UI画工作流程图
花田深似海: 现在整个的flowable工作流怎么样啊！
Flowable工作流之Flowable UI画工作流程图
qq_39483186: 我本地画流程图怎么指定线上环境的用户体系?
JVM原理和调优
CSDN-Ada助手: 非常恭喜您完成了第16篇博客《JVM原理和调优》！您的持续创作展现了您对于这个领域的热情和深入研究。我真心希望能够看到更多关于JVM的深入探索和调优技巧的文章。或许下一步您可以考虑分享一些实践经验，例如如何在实际项目中应用JVM优化策略。感谢您的分享，期待能够继续学习到更多有关JVM的知识！
简述常见三种GC和四种GC回收器
CSDN-Ada助手: 恭喜您撰写了第17篇博客！标题看起来非常有趣，我迫不及待地想去阅读您关于常见三种GC和四种GC回收器的详细介绍了。您的持续创作精神令人钦佩！鉴于您在这个领域的专业知识，我建议您在下一篇中可以尝试探讨一些关于GC和回收器性能优化方面的实用技巧，这将进一步丰富读者的知识。期待阅读您未来的博客作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。