游标查询
scroll 查询 可以用来对 Elasticsearch 有效地执行大批量的文档查询,而又不用付出深度分页那种代价。
7.x版本 设置每次查询的获取时间为1m 这个过期时间只需要足够处理当前批数据即可,而不是处理查询结果的所有文档需要的时间。 可以使用_doc 进行排序 可以避免全局排序深度分页
滚动请求具有优化功能,可以使排序顺序为时更快_doc。如果要遍历所有文档而不考虑顺序,这是最有效的选择:
GET / _search?scroll=1m
{
"query" : {
"match_all" : { }
}
, "size" : 1000
, "sort" : [
"_doc"
]
}
查询的结果会返回一个字段_scroll_id 查询下一批结果需要传递_scroll_id 以及 scroll 过期值
尽管我们设置的size为1000,但是size作用于单个分片。所以我们每次返回的文档数量最大是 size * number_of_primary_shards
下一次进行查询的时候get 或者post请求都可以,但是不能再指定index,因为他是基于scroll_id 在原始请求中获取接下来的数据
GET _search/ scroll
{
"scroll" : "1m" ,
"scroll_id" : "DnF1ZXJ5VGhlbkZldGNoQgAAAAAAAAGOFmJYMGtYVU1QU0RLMnpxZDUyS1E3bEEAAAAAAAAB2xBAAAAAAAAC0UWMFNqUDA0eVFSLXVYWHEwMEk2Y3dwdwAAAAAAAAGjFmJYMGtYVU1="
}
GET / _nodes/ stats/ indices/ search
scroll超过超时时间后,搜索上下文将自动删除。但是,如上一节所述,保持滚动打开是有代价的, 因此,一旦不再使用clear-scrollAPI 使用滚动,则应立即清除滚动
DELETE / _search/ scroll
{
"scroll_id" : "DnF1ZXJ5VGhlb"
}
多个滚动ID可以作为数组传递:
DELETE / _search/ scroll
{
"scroll_id" : [
"DXF1ZXJ5QW5kRmVkFMNjU1QQ==" ,
"DnF1ZXJ5kUVlCa1NqNmRMaUhiQlZkMWFB"
]
}
可以使用以下_all参数清除所有搜索上下文:
DELETE _search/ scroll/ _all