ES 基础-基础检索

最新推荐文章于 2024-04-23 16:17:43 发布

纸笔写余生

最新推荐文章于 2024-04-23 16:17:43 发布

阅读量390

点赞数

分类专栏： es 文章标签： es java

本文链接：https://blog.csdn.net/zhibiyus/article/details/107907435

版权

es 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

ES 基础-基础检索

一、基础检索
1、检索文档
目前我们已经在 Elasticsearch 中存储了一些数据，接下来就能专注于实现应用的业务需求了。第一个需求是可以检索到单个雇员的数据。

这在 Elasticsearch 中很简单。简单地执行一个 HTTP GET 请求并指定文档的地址——索引库、类型和ID。使用这三个信息可以返回原始的 JSON 文档

将 HTTP 命令由 PUT 改为 GET 可以用来检索文档，同样的，可以使用 DELETE 命令来删除文档，以及使用 HEAD 指令来检查文档是否存在。如果想更新已存在的文档，只需再次 PUT 。
2、轻量搜索
通过_search 进行搜索。返回结果不仅告知匹配了哪些文档，还包含了整个文档本身：显示搜索结果给最终用户所需的全部信息。
GET /megacorp/employee/_search?q=last_name:Smith
可以通过复制查询想要进行查询的信息

3、使用查询表达式搜索

Elasticsearch 提供一个丰富灵活的查询语言叫做查询表达式，它支持构建更加复杂和健壮的查询。领域特定语言（DSL），使用 JSON 构造了一个请求。
我们可以像这样重写之前的查询所有名为 Smith 的搜索：

GET /megacorp/employee/_search{
“query” : {
“match” : {
“last_name” : “Smith”
}
}}

返回结果与之前的查询一样，但还是可以看到有一些变化。其中之一是，不再使用 query-string 参数，而是一个请求体替代。这个请求使用 JSON 构造，并使用了一个 match 查询（属于查询类型之一）。

4、更复杂的搜索
现在尝试下更复杂的搜索。同样搜索姓氏为 Smith 的员工，但这次我们只需要年龄大于 30 的。查询需要稍作调整，使用过滤器 filter ，它支持高效地执行一个结构化查询

GET /megacorp/employee/_search{
“query” : {
“bool”: {
“must”: {
“match” : {
“last_name” : “smith”
}
},
“filter”: {
“range” : {
“age” : { “gt” : 30 }
}
}
}
}}

1、这部分与我们之前使用的 match 查询一样。

2、这部分是一个 range 过滤器，它能找到年龄大于 30 的文档，其中 gt 表示_大于_(great than)。

5、全文搜索
截止目前的搜索相对都很简单：单个姓名，通过年龄过滤。现在尝试下稍微高级点儿的全文搜索——一项传统数据库确实很难搞定的任务
搜索下所有喜欢攀岩（rock climbing）的员工：

GET /megacorp/employee/_search{
“query” : {
“match” : {
“about” : “rock climbing”
}
}}
搜索结果会根据每个员工中的about中所描述的内容进行展示。
即每个文档跟查询的匹配程度。第一个最高得分的结果很明显：John Smith 的 about 属性清楚地写着 “rock climbing” 。

但为什么 Jane Smith 也作为结果返回了呢？原因是她的 about 属性里提到了 “rock” 。因为只有 “rock” 而没有 “climbing” ，所以她的相关性得分低于 John 的。

这是一个很好的案例，阐明了 Elasticsearch 如何在全文属性上搜索并返回相关性最强的结果。Elasticsearch中的相关性概念非常重要，也是完全区别于传统关系型数据库的一个概念，数据库中的一条记录要么匹配要么不匹配。
6、短语搜索
找出一个属性中的独立单词是没有问题的，但有时候想要精确匹配一系列单词或者_短语_ 。比如，我们想执行这样一个查询，仅匹配同时包含 “rock” 和 “climbing” ，并且二者以短语 “rock climbing” 的形式紧挨着的雇员记录。

为此对 match 查询稍作调整，使用一个叫做 match_phrase 的查询：
GET /megacorp/employee/_search{
“query” : {
“match_phrase” : {
“about” : “rock climbing”
}
}}
这样就会只搜索出完全包括这个短语的信息

7、高亮搜索
许多应用都倾向于在每个搜索结果中高亮部分文本片段，以便让用户知道为何该文档符合查询条件。在 Elasticsearch 中检索出高亮片段也很容易。

再次执行前面的查询，并增加一个新的 highlight 参数：

一个GET /megacorp/employee/_search{
“query” : {
“match_phrase” : {
“about” : “rock climbing”
}
},
“highlight”: {
“fields” : {
“about” : {}
}
}}
当执行该查询时，返回结果与之前一样，与此同时结果中还多了一个叫做 highlight 的部分。这个部分包含了 about 属性匹配的文本片段，并以 HTML 标签封装。
8、分析
终于到了最后一个业务需求：支持管理者对员工目录做分析。 Elasticsearch 有一个功能叫聚合（aggregations），允许我们基于数据生成一些精细的分析结果。聚合与 SQL 中的 GROUP BY 类似但更强大。
举个例子，挖掘出员工中最受欢迎的兴趣爱好：
GET /megacorp/employee/_search{
“aggs”: {
“all_interests”: {
“terms”: { “field”: “interests” }
}
}}

{
…
“hits”: { … },
“aggregations”: {
“all_interests”: {
“buckets”: [
{
“key”: “music”,
“doc_count”: 2
},
{
“key”: “forestry”,
“doc_count”: 1
},
{
“key”: “sports”,
“doc_count”: 1
}
]
}
}}
可以看到，两位员工对音乐感兴趣，一位对林业感兴趣，一位对运动感兴趣。这些聚合的结果数据并非预先统计，而是根据匹配当前查询的文档即时生成的。如果想知道叫 Smith 的员工中最受欢迎的兴趣爱好，可以直接构造一个组合查询：
GET /megacorp/employee/_search{
“query”: {
“match”: {
“last_name”: “smith”
}
},
“aggs”: {
“all_interests”: {
“terms”: {
“field”: “interests”
}
}
}}
all_interests 聚合已经变为只包含匹配查询的文档：
…
“all_interests”: {
“buckets”: [
{
“key”: “music”,
“doc_count”: 2
},
{
“key”: “sports”,
“doc_count”: 1
}
]
}
聚合还支持分级汇总。比如，查询特定兴趣爱好员工的平均年龄：
GET /megacorp/employee/_search{
“aggs” : {
“all_interests” : {
“terms” : { “field” : “interests” },
“aggs” : {
“avg_age” : {
“avg” : { “field” : “age” }
}
}
}
}}
这是一个关于 Elasticsearch 基础描述的教程，且仅仅是浅尝辄止，更多诸如 suggestions、geolocation、percolation、fuzzy 与 partial matching 等特性均被省略，以便保持教程的简洁。
9、分布式特性
Elasticsearch 可以横向扩展至数百（甚至数千）的服务器节点，同时可以处理PB级数据。我们的教程给出了一些使用 Elasticsearch 的示例，但并不涉及任何内部机制。Elasticsearch 天生就是分布式的，并且在设计时屏蔽了分布式的复杂性。
Elasticsearch 尽可能地屏蔽了分布式系统的复杂性。这里列举了一些在后台自动执行的操作：
1分配文档到不同的容器或分片中，文档可以储存在一个或多个节点中
2按集群节点来均衡分配这些分片，从而对索引和搜索过程进行负载均衡
3复制每个分片以支持数据冗余，从而防止硬件故障导致的数据丢失
4将集群中任一节点的请求路由到存有相关数据的节点
5集群扩容时无缝整合新节点，重新分配分片以便从离群节点恢复

纸笔写余生

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ES 基础-基础检索

ES 基础-基础检索一、基础检索1、检索文档目前我们已经在 Elasticsearch 中存储了一些数据，接下来就能专注于实现应用的业务需求了。第一个需求是可以检索到单个雇员的数据。这在 Elasticsearch 中很简单。简单地执行一个 HTTP GET 请求并指定文档的地址——索引库、类型和ID。使用这三个信息可以返回原始的 JSON 文档将 HTTP 命令由 PUT 改为 GET 可以用来检索文档，同样的，可以使用 DELETE 命令来删除文档，以及使用 HEAD 指令来检查文档是否
复制链接

扫一扫