ElasticSearch学习总结

最新推荐文章于 2023-01-17 10:56:44 发布

weixin_44755405

最新推荐文章于 2023-01-17 10:56:44 发布

阅读量172

点赞数

文章标签： es学习总结

本文链接：https://blog.csdn.net/weixin_44755405/article/details/103471582

版权

ElasticSearch学习总结

首先是下载安装es，这些官网都有说明，在此不作赘述。安装完之后启动es，我这里是window系统，所以直接在解压目录的bin下面找到elasticsearch双击就行。官方推荐的是用curl来进行es的学习和测试。本人这里用的是postman，因为postman比curl更加强大，它本身也包含有curl。准备工作做到这些，接下来就开始学习：

es的基础入门学习

概要:es是面向文档进行存储、检索、聚合等操作的。它是一款分布式全文检索框架，底层基于基于Lucene实现。

存储方面：es是使用 JSON 格式存储数据，属于分布式文档存储，写到磁盘的倒序索引是不变的。es的索引就像是传统数据库中的database。传统数据库是通过增加一个索引(如:B-tree)在指定列上，以便提升检索速度。Elasticsearch使用了一个叫做倒排索引的结构来达到相同的目的。不过es与传统数据库不同:ES没有用户验证和权限控制；ES没有事务的概念，不支持回滚，误删不能恢复等等。
检索查询方面
空搜索：GET /_search 它简单地返回集群中所有索引下的所有文档。
多搜索、多类型：/_search 在所有的索引中搜索所有的类型；
/gb/_search 在 gb 索引中搜索所有的类型；
/gb,us/_search 在 gb 和 us 索引中搜索所有的文档；
/g*,u*/_search 在任何以 g 或者 u 开头的索引中搜索所有的类型；
/gb/user/_search 在 gb 索引中搜索 user 类型；
/gb,us/user,tweet/_search 在 gb 和 us 索引中搜索 user 和 tweet 类型；
/_all/user,tweet/_search 在所有的索引中搜索 user 和 tweet 类型；
分页：GET /_search?size=?&from=?
size 显示应该返回的结果数量，默认是 10 ; from 显示应该跳过的初始结果数量，默认是 0。
排序：es默认排序是按_soure降序。当然，很多情况下都是自定义排序：1、GET /_search?sort=date:desc/asc date为某一字段。2、直接在body中指定单个或者多个字段，如: “sort”: “number_of_children” 或者
{
“query” : {…},
“sort”: [
{ “date”: { “order”: “desc” }},
{ “_score”: { “order”: “desc” }}
]
}。

索引的概念

1、名词：一个 索引 类似于传统关系数据库中的一个 数据库 ，是一个存储关系型文档的地方。
2、动词：索引一个文档 就是存储一个文档到一个 索引 （名词）中以便被检索和查询。

添加索引:

 PUT  /blogs
 索引在默认情况下会被分配5个主分片，如需自己定义的话，可以在postman的bady中加入:
 {
  "settings" : {
    "number_of_shards" : 3(主分片数量，这个配置在索引创建后不能修改包括默认的。)
    "number_of_replicas" : 1(副分片数量，这个配置可以随时修改。)
  }
}
修改副分片数量:
PUT /my_temp_index/_settings
{
	"number_of_replicas": 1
}

删除索引:

 DELETE /my_index    删除单个索引
 DELETE /index_one,index_two 或者 DELETE /index_*   删除多个索引
 DELETE /_all 或者 DELETE /* 删除所有索引

es的深入搜索

搜索功能可以说是es最常用的功能了。搜索一共分为:结构化搜索，全文搜索，多字段搜索和近似匹配、多字段匹配等。关键词有:

布尔过滤器编辑 bool

一个 bool 过滤器由三部分组成：
{
   "bool" : {
      "must" :     [],
      "should" :   [],
      "must_not" : [],
   }
}
must  所有的语句都 必须（must） 匹配，与 AND 等价。
must_not  所有的语句都 不能（must not） 匹配，与 NOT 等价。
should  至少有一个语句要匹配，与 OR 等价。

精准之查找 term,trems：trem用于查询单个精确值，trems用于查询多个精确值。他们都要置于filter中。

查询数字:
 {
"term" : {
    "price" : 20
}
}

查询文本:
{
"query" : {
    "constant_score" : {
        "filter" : {
            "term" : {
                "productID" : "XHDK-A-1293-#fJ3"
            }
        }
    }
}
}

trems查询多个精确值:
{
"query" : {
    "constant_score" : {
        "filter" : {
            "terms" : { 
                "price" : [20, 30]
            }
        }
    }
}
}

模糊查询 fuzzy

{
  "query": {
    "fuzzy": {
      "name":{
        "value": "bird cot",
        "fuzziness": 1
      }
    }
  }
}

1、fuzzy是词/项级别的模糊匹配,match_phrase是基于短语级别的。
2、fuzzy是基于莱文斯坦距离的,所以fuzzy是可以容错的例如你输入"dcg" 你也可以匹配到"dog cat bird",但是这里注意的是你的查询只能是单词条的查询,不能"dcg cat",如果你需要查询短语里面的拼写错误,可以使用match的fuzziness参数，match_phrase是不允许出现不存在的词条的。

范围 range 查询可同时提供包含（inclusive）和不包含（exclusive）这两种范围表达式。

 gt: > 大于（greater than）
 lt: < 小于（less than）
 gte: >= 大于或等于（greater than or equal to）
 lte: <= 小于或等于（less than or equal to）
 例:
 普通数值范围:
 {
"query" : {
    "constant_score" : {
        "filter" : {
            "range" : {
                "price" : {
                    "gte" : 20,
                    "lt"  : 40
                }
            }
        }
    }
}
}
日期范围：
"range" : {
"timestamp" : {
    "gt" : "2014-01-01 00:00:00",
    "lt" : "2014-01-07 00:00:00"
}
}
字符串范围:
"range" : {
"title" : {
    "gte" : "a",
    "lt" :  "b"
}
}

null值处理(exists、missing)：exists相当于sql中的not is null，查询所有非空的值；missing与exists正好相反，相当于sql中的is null，查询空值。

全文检索 match : 匹配查询 match 是个核心查询。无论需要查询什么字段， match 查询都应该会是首选的查询方式。它是一个高级全文查询，这表示它既能处理全文字段，又能处理精确字段。这就是说， match 查询主要的应用场景就是进行全文搜索。

 例：使用 match 查询搜索全文字段中的单个词
 {
"query": {
    "match": {
        "title": "QUICK!"
    }
}
}

使用 match 查询搜索全文字段中的多个词
{
"query": {
    "match": {
        "title": "BROWN DOG!"
        "operator": "and"（这里为提高精度指两个词都要同时存在，也可以用or，指两个词存在任意一个即可）
    }
}
}

多条件匹配查询 bool，条件中也可以用boost进行优先级划分，bool默认的boost是1：

  {
  "query": {
    "bool": {
      "should": [
        { "match": { 
            "title":  {
              "query": "War and Peace",
              "boost": 2
        }}},
        { "match": { 
            "author":  {
              "query": "Leo Tolstoy",
              "boost": 2
        }}},
        { "bool":  { 
            "should": [
              { "match": { "translator": "Constance Garnett" }},
              { "match": { "translator": "Louise Maude"      }}
            ]
        }}
      ]
    }
  }
}

短语匹配 match_phrase ：就像 match 查询对于标准全文检索是一种最常用的查询一样，当你想找到彼此邻近搜索词的查询方法时，就会想到 match_phrase 查询。

{
    "query": {
        "match_phrase": {
            "title": "quick brown fox"
        }
    }
}
一个被认定为和短语 quick brown fox 匹配的文档，必须满足以下这些要求：
quick 、 brown 和 fox 需要全部出现在域中。
brown 的位置应该比 quick 的位置大 1 。
fox 的位置应该比 quick 的位置大 2 。
如果以上任何一个选项不成立，则该文档不能认定为匹配。

prefix 前缀查询：prefix 查询是一个词级别的底层的查询，它不会在搜索之前分析查询字符串，它假定传入前缀就正是要查找的前缀。

{
"query": {
    "prefix": {
        "postcode": "W1"
    }
}
}

默认状态下， prefix 查询不做相关度评分计算，它只是将所有匹配的文档返回，并为每条结果赋予评分值 1 。它的行为更像是过滤器而不是查询。 prefix 查询和 prefix 过滤器这两者实际的区别就是过滤器是可以被缓存的，而查询不行。

通配符预正则表达式：与 prefix 前缀查询的特性类似， wildcard 通配符查询也是一种底层基于词的查询，与前缀查询不同的是它允许指定匹配的正则式。它使用标准的 shell 通配符查询： ? 匹配任意字符， * 匹配 0 或多个字符。

{
    "query": {
        "wildcard": {
            "postcode": "W?F*HW" 
        }
    }
}
? 匹配 1 和 2 ， * 与空格及 7 和 8 匹配。

es的聚合

概要：聚合是由桶和指标组成的。聚合可能只有一个桶，可能只有一个指标，或者可能两个都有。也有可能有一些桶嵌套在其他桶里面。例如，我们可以通过所属国家来划分文档（桶），然后计算每个国家的平均薪酬（指标）。

  桶（Buckets）满足特定条件的文档的集合
  指标（Metrics）对桶内的文档进行统计计算
  类似于Sql:SELECT COUNT(color) FROM table GROUP BY color 。COUNT(color) 相当于指标。GROUP BY color 相当于桶。

聚合可以与搜索请求同时执行，但是我们需要理解一个新概念：范围。默认情况下，聚合与查询是对同一范围进行操作的，也就是说，聚合是基于我们查询匹配的文档集合进行计算的。
尝试聚合：es5以下的可以依照官方例子做,本人用的是es7，因为fielddata把test类型封装了，所以对于字符串字段，需要加入.keyword,例如"terms" : {“field” : “color.keyword”}。另外，es只有数值类型(integer,long等)的字段才可以进行计算，字符串的不能进行计算。

条形图：

histogram是实现直方图(条形图的关键词)。例:
{
   "size" : 0,
   "aggs":{
      "price":{
         "histogram":{ 
            "field": "price",
            "interval": 20000
         },
         "aggs":{
            "revenue": {
               "sum": { 
                 "field" : "price"
               }
             }
         }
      }
   }
}

histogram 桶要求两个参数：一个数值字段以及一个定义桶大小间隔。sum 度量嵌套在每个售价区间内，用来显示每个区间内的总收入。
按时间统计：date_histogram。虽然通常的 histogram 都是条形图，但 date_histogram 倾向于转换成线状图以展示时间序列。许多公司用 Elasticsearch 仅仅只是为了分析时间序列数据。 date_histogram 分析是它们最基本的需要。date_histogram 与通常的 histogram 类似。但不是在代表数值范围的数值字段上构建 buckets，而是在时间范围上构建 buckets。因此每一个 bucket 都被定义成一个特定的日期大小 (比如， 1个月或 2.5 天 )。
通常的 histogram bucket（桶）是可以处理日期的。但是它不能自动识别日期。而用 date_histogram ，你可以指定时间段如 1 个月，它能聪明地知道 2 月的天数比 12 月少。 date_histogram 还具有另外一个优势，即能合理地处理时区，这可以使你用客户端的时区进行图标定制，而不是用服务器端时区。通常的 histogram 会把日期看做是数字，这意味着你必须以微秒为单位指明时间间隔。另外聚合并不知道日历时间间隔，使得它对于日期而言几乎没什么用处。
other：聚合还可以加入过滤，多桶排序等。因为es用于分布式更多，所以有常用来做近似聚合。这些因为官方文档里都有详细讲解，在此就不再一一赘述。es的学习到此告一段落！

weixin_44755405

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch学习总结

ElasticSearch学习总结使用postman进行es的基础入门学习dfdfd新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体验；在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式进行展示；增加了图片...
复制链接

扫一扫