分页查询
POST /dsl_search/_search
{
"query": {
"match_all": {}
},
"from": 0,
"size": 10
}
深度分页
深度分页其实就是搜索的深浅度,比如第1页,第2页,第10页,第20页,是比较浅的;第10000页,第20000页就是很深了;
{
"query": {
"match_all": {}
},
"from": 9990,
"size": 10
}
{
"query": {
"match_all": {}
},
"from": 9999,
"size": 10
}
我们在获取第9999条到10009条数据的时候,其实每个分片都会拿到10009条数据,然后集合在一起,总共是10009*3=30027条数据,针对30027数据再次做排序处理,最终获取最后10条数据。
如此一来,搜索得太深,就会造成性能问题,会耗费内存和占用CPU。而且es为了性能,它不支持超过一万条数据以上的分页查询。那么如何解决深度分页带来的性能呢?其实我们应该避免深度分页操作(限制分页页数),比如最多只能提供100页的展示,从101页开始就没了,毕竟用户也不会搜的那么深,我们平时搜索淘宝或者百度,一般也就看个10来页就顶多了。
譬如淘宝搜索限制分页最多100页,如下:
如果有些业务需要查询超过这个数量,需要另行设置。
提升搜索量
"changing the [index.max_result_window] index level setting"
通过设置index.max_result_window来突破10000数据
# 查询初始的index.max_result_window:
GET /dsl_search/_settings
# 设置index.max_result_window:
PUT /dsl_search/_settings
{
"index.max_result_window": "20000"
}
scroll滚动搜索
一次性查询1万+数据,往往会造成性能影响,因为数据量太多了。这个时候可以使用滚动搜索,也就是scroll。
滚动搜索可以先查询出一些数据,然后再紧接着依次往下查询。在第一次查询的时候会有一个滚动id,相当于一个锚标记,随后再次滚动搜索会需要上一次搜索的锚标记,根据这个进行下一次的搜索请求。每次搜索都是基于一个历史的数据快照,查询数据的期间,如果有数据变更,那么和搜索是没有关系的,搜索的内容还是快照中的数据。
- scroll=1m,相当于是一个session会话时间,搜索保持的上下文时间为1分钟。
POST /dsl_search/_search?scroll=1m
{
"query": {
"match_all": {
}
},
"sort" : ["_doc"],
"size": 5
}
POST /_search/scroll
{
"scroll": "1m",
"scroll_id" : "your last scroll_id"
}
官网地址:https://www.elastic.co/guide/cn/elasticsearch/guide/current/scroll.html
批量查询--mget
-
根据ids进行搜索
POST /dsl_search/_search/
{
"query": {
"ids": {
"values": [
"1001",
"1003",
"1005"
]
}
}
}
-
_mget
POST /dsl_search/_mget/
{
"ids": ["1001", "1003", "1005"]
}
二者区别:
mget批量查询,如果id不存在,也会有一个json, json中的found属性显示为false
ids查询则不会有。
批量操作bulk
基本语法
bulk操作和以往的普通请求格式有区别,不要格式化json,不然就不在同一行了,这个需要注意。
{ action: { metadata }}\n
{ request body }\n
{ action: { metadata }}\n
{ request body }\n
...
- { action: { metadata }}代表批量操作的类型,可以是新增、删除或修改
- \n是每行结尾必须填写的一个规范,每一行包括最后一行都要写,用于es的解析
- {request body}是请求body,增加和修改操作需要,删除操作则不需要
批量操作的类型
action必须是一下选项之一:
- create:如果文档不存在,那么就创建它。存在会报错。发生异常报错不会影响其他操作。
- index:创建一个新文档或者替换一个现有文档。
- update:部分更新一个文档。
- delete:删除一个文档。
metadata中需要指定要操作的文档的_index、_type和_id,_index、_type也可以在url中指定。
实操
- create新增文档数据,在metadata中指定index以及type
POST /_bulk
{"create": {"_index": "dsl_search2", "_type": "_doc", "_id": "2001"}}
{"id": "2001", "nickname": "name2001"}
{"create": {"_index": "dsl_search2", "_type": "_doc", "_id": "2002"}}
{"id": "2002", "nickname": "name2002"}
{"create": {"_index": "dsl_search2", "_type": "_doc", "_id": "2003"}}
{"id": "2003", "nickname": "name2003"}
- create创建已有id文档,在url中指定index和type
POST /dsl_search/_bulk
{"create": {"_id": "2003"}}
{"id": "2003", "nickname": "name2003"}
{"create": {"_id": "2004"}}
{"id": "2004", "nickname": "name2004"}
{"create": {"_id": "2005"}}
{"id": "2005", "nickname": "name2005"}
- index创建,已有文档id会被覆盖,不存在的id则新增。
POST /dsl_search/_bulk
{"index": {"_id": "2004"}}
{"id": "2004", "nickname": "index2004"}
{"index": {"_id": "2007"}}
{"id": "2007", "nickname": "name2007"}
{"index": {"_id": "2008"}}
{"id": "2008", "nickname": "name2008"}
- update更新部分文档数据
POST /dsl_search/_bulk
{"update": {"_id": "2004"}}
{"doc":{ "id": "3004"}}
{"update": {"_id": "2007"}}
{"doc":{ "nickname": "nameupdate"}}
- delete批量删除
POST /dsl_search/_bulk
{"delete": {"_id": "2004"}}
{"delete": {"_id": "2007"}}
- 综合批量各种操作
POST /dsl_search/_bulk
{"create": {"_id": "8001"}}
{"id": "8001", "nickname": "name8001"}
{"update": {"_id": "2001"}}
{"doc":{ "id": "20010"}}
{"delete": {"_id": "2003"}}
{"delete": {"_id": "2005"}}