ElasticSearch的初级教学

最新推荐文章于 2023-10-22 10:21:01 发布

酒巷

最新推荐文章于 2023-10-22 10:21:01 发布

阅读量244

点赞数

分类专栏： JAVA

本文链接：https://blog.csdn.net/weixin_43844237/article/details/84885151

版权

JAVA 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1.什么是ElasticSearch（ES）？

分布式的实时文件存储，每个字段都被索引并可被搜索
分布式的实时分析搜索引擎
可以扩展到上百台服务器，处理PB级结构化或非结构化数据
高度集成化的服务，你的应用可以通过简单的 RESTful API、各种语言的客户端甚至命令行与之
交互。

2.ES的安装

ES服务只依赖于JDK，推荐使用JDK1.7+。
① 下载ES安装包
官方下载地址：https://www.elastic.co/downloads/elasticsearch
本以在window环境下，ES 5.2.2版本为例，下载对应的ZIP文件
在这里插入图片描述
② 运行ES
bin/elasticsearch.bat
③ 验证
访问：http://localhost:9200/

看到上图信息，恭喜你，你的ES集群已经启动并且正常运行.

3.1. ES交互方式

① 基于RESTful API
ES和所有客户端的交互都是使用JSON格式的数据.
其他所有程序语言都可以使用RESTful API，通过9200端口的与ES进行通信，在开发测试阶段，你可以使用你喜欢的WEB客户端， curl命令以及火狐的POSTER插件方式和ES通信。
Curl命令方式：
默认windows下不支持curl命令，在资料中有curl的工具及简单使用说明。
在这里插入图片描述
② Java API
ES为Java用户提供了两种内置客户端：
节点客户端(node client)：
节点客户端以无数据节点(none data node)身份加入集群，换言之，它自己不存储任何数据，但是它知道数据在集群中的具体位置，并且能够直接转发请求到对应的节点上。
传输客户端(Transport client)：
这个更轻量的传输客户端能够发送请求到远程集群。它自己不加入集群，只是简单转发请求给集群中的节点。
两个Java客户端都通过9300端口与集群交互，使用ES传输协议(ES Transport Protocol)。集群中的节点
之间也通过9300端口进行通信。如果此端口未开放，你的节点将不能组成集群。
注意
Java客户端所在的ES版本必须与集群中其他节点一致，否则，它们可能互相无法识别。

3.2. 扩展：Restful认识

Restful是一种面向资源的架构风格，可以简单理解为：使用URL定位资源，用HTTP动词（GET,POST,DELETE,PUT）描述操作。

GET /user/delete?id=1(不符合restful规范的写法)
DELETE /user/1
POST /user
{name:zs}
Put /user
{name:zs}
GET /user/1

使用Restful的好处：
透明性，暴露资源存在。
充分利用 HTTP 协议本身语义。
无状态，这点非常重要。在调用一个接口（访问、操作资源）的时候，可以不用考虑上下文，不用考虑当前状态，极大的降低了复杂度。
HTTP 本身提供了丰富的内容协商手段，无论是缓存，还是资源修改的乐观并发控制，都可以以业务无关的中间件来实现。
Restful的典型特征：
① Server提供的RESTful API中，URL中只使用名词来指定资源。
“资源”是REST架构或者说整个网络处理的核心。比如：
GET http://api.itsource.cn/emp/323: 获取323号员工的基本资料;
GET http://api.itsource.cn/emps: 获取源码时代所有员工资料列表;
② REST 是面向资源的，这个概念非常重要，而资源是通过 URI 进行暴露
URI 的设计只要负责把资源通过合理方式暴露出来就可以了。对资源的操作与它无关，所以REST 通过 URI 暴露资源时，会强调不要在 URI 中出现动词。
比如：左边是错误的设计，而右边是正确的
GET /rest/api/getDogs -> GET /rest/api/dogs 获取所有小狗狗
GET /rest/api/addDogs -> POST /rest/api/dogs 添加一个小狗狗
POST /rest/api/editDogs/12 -> PUT /rest/api/dogs/12 修改一个小狗狗
POST /rest/api/deleteDogs/12 -> DELETE /rest/api/dogs/12 删除一个小狗狗
左边的这种设计，很明显不符合REST风格，URI 只负责准确无误的暴露资源，而 getDogs/addDogs…已经包含了对资源的操作，这是不对的。相反右边却满足了，它的操作是使用标准的HTTP动词来体现。
③ 用HTTP协议里的动词来实现资源的添加，修改，删除等操作。
即通过HTTP动词来实现资源的状态扭转：
GET 用来获取资源，
POST 用来新建资源（也可以用于更新资源），
PUT 用来更新资源，
DELETE 用来删除资源。
比如：
GET http://api.itsource.cn/emp/323
POST http://api.itsource.cn/emp: 添加一个员工
PUT http://api.itsource.cn/emp/232: 更新232号员工资料
DELETE http://api.itsource.cn/emp/323: 删除323号员工
3.5. 辅助管理工具Kibana5
① Kibana5.2.2下载地址：https://www.elastic.co/downloads/kibana
② 解压并编辑config/kibana.yml，设置elasticsearch.url的值为已启动的ES
③ 启动Kibana5 : bin\kibana.bat
④ 默认访问地址：http://localhost:5601
Discover：可视化查询分析器
Visualize：统计分析图表
Dashboard：自定义主面板（添加图表）
Timelion：Timelion是一个kibana时间序列展示组件（暂时不用）
Dev Tools ：Console（同CURL/POSTER，操作ES代码工具，代码提示，很方便）
Management：管理索引库(index)、已保存的搜索和可视化结果(save objects)、设置 kibana 服务器属性。

ES数据管理

4. 什么是ES中的文档

Document(List) Field {name value store…}

ES是面向文档(document oriented)的，这意味着它可以存储整个对象或文档(document)。然而它不仅仅是存储，还会索引(index)每个文档的内容使之可以被搜索。在ES中，你可以对文档（而非成行成列的数据）进行索引、搜索、排序、过滤。
ES使用Javascript对象符号(JavaScript Object Notation)，也就是JSON，作为文档序列化格式。JSON现在已经被大多语言所支持，而且已经成为NoSQL领域的标准格式。
ES存储的一个员工文档的格式示例：

{
_index : “crm”,
_type : “user”,
_id : 1, 
_source : {
"email": "nxh@itsource.cn",
"name": "倪先华",
"info": {
     "addr": "四川省成都市",
     "age": 30,
     "interests": [ "美食", "美女" ]
},
"join_date": "2016-06-01"
}
}

尽管原始的 employee对象很复杂，但它的结构和对象的含义已经被完整的体现在JSON中了，在ES中将对象转化为JSON并做索引要比在表结构中做相同的事情简单的多。
一个文档不只有数据。它还包含元数据(metadata)—关于文档的信息。三个必须的元数据节点是：
在这里插入图片描述

_index：索引库，类似于关系型数据库里的“数据库”—它是我们存储和索引关联数据的地方。
_type：在应用中，我们使用对象表示一些“事物”，例如一个用户、一篇博客、一个评论，或者一封邮件。可以是大写或小写，不能包含下划线或逗号。我们将使用 employee 做为类型名。
_id:与 _index 和 _type 组合时，就可以在ELasticsearch中唯一标识一个文档。当创建一个文档，你可以自定义 _id ，也可以让Elasticsearch帮你自动生成。
另外还包括：_uid文档唯一标识(_type#_id)
_source：文档原始数据
_all：所有字段的连接字符串

4.1. 文档的增删改

我们以员工对象为例，我们首先要做的是存储员工数据，每个文档代表一个员工。在ES中存储数据的行为就叫做索引(indexing)，文档归属于一种类型(type),而这些类型存在于索引(index)中，我们可以简单的对比传统数据库和ES的对应关系：
关系数据库（MYSQL） -> 数据库DB-> 表TABLE-> 行ROW-> 列Column
Elasticsearch -> 索引库Indices -> 类型Types -> 文档Documents -> 字段Fields
ES集群可以包含多个索引(indices)（数据库），每一个索引库中可以包含多个类型(types)（表），每一个类型包含多个文档(documents)（行），然后每个文档包含多个字段(Fields)（列）。
创建索引文档

①使用自己的ID创建：
PUT {index}/{type}/{id}
{
  "field": "value",
  ...
}
②ES内置ID创建：
POST {index}/{type}/
{
  "field": "value",
  ...
}
①②ES响应内容：
{
"_index": "itsource",
"_type": "employee",
"_id": xxxxxx,
"_version": 1, //文档版本号
"created": true //是否新增
}

③ 获取指定ID的文档
GET itsource/employee/123?pretty
③返回的内容：
{
"_index" : "itsource",
"_type" : "employee",
"_id" : "123",
"_version" : 1,
"found" : true,
"_source" : {
   "email": "nxh@itsource.cn",
   "fullName": "倪先华",
   ...
   "joine_date": "2016-06-01"
}
}

返回文档的部分字段：
GET默认返回整个文档，通过GET /itsource/employee/123?_source=fullName,email
只返回文档内容，不要元数据：
GET itsource/employee/123/_source
只检查文档是否存在(查询头信息)：
curl -i -X HEAD http://localhost:9200/itsource/employee/123
④ 修改文档
更新整个文档
同PUT {index}/{type}/{id}
在响应中，我们可以看到Elasticsearch把 _version 增加了。

{
...
"_version" : 2,
"created": false
}

created 标识为 false 因为同索引、同类型下已经存在同ID的文档。
在内部，Elasticsearch已经标记旧文档为删除并添加了一个完整的新文档。旧版本文档不会立即消失，但你也不能去访问它。Elasticsearch会在你继续索引更多数据时清理被删除的文档。
局部更新文档
接受一个局部文档参数 doc，它会合并到现有文档中，对象合并在一起，存在的标量字段被覆盖，新字段被添加。

POST itsource/employee/123/_update
{
“doc” : {
"email" : "nixianhua@itsource.cn", 
"salary": 1000
}
}

email会被更新覆盖，salary会新增。
这个API 似乎允许你修改文档的局部，但事实上Elasticsearch
遵循与之前所说完全相同的过程，这个过程如下：

从旧文档中检索JSON
修改它
删除旧文档
索引新文档
脚本更新文档
也可以通过使用简单的脚本来进行。这个例子使用一个脚本将age加5：

POST itsource/emploee/123/_update
{
“script” : “ctx._source.age += 5”
}

在上面的例子中， ctx._source指向当前被更新的文档。
注意，目前的更新操作只能一次应用在一个文档上。
删除文档
DELETE {index}/{type}/{id}
存在文档的返回：

{
"found" : true,
"_index" : "website",
"_type" : "blog",
"_id" : "123",
"_version" : 3
}

不存在的返回：

{
"found" : false,
"_index" : "website",
"_type" : "blog",
"_id" : "123",
"_version" : 4
}

注意：尽管文档不存在，但_version依旧增加了。这是内部记录的一部分，它确保在多节点间不同操作可以有正确的顺序。
批量操作bulk API
使用单一请求来实现多个文档的create、index、update 或 delete。
Bulk请求体格式：

{ action: { metadata }}\n
{ request body }\n
{ action: { metadata }}\n
{ request body }\n

每行必须以 “\n” 符号结尾，包括最后一行。这些都是作为每行有效的分离而做的标记。
create当文档不存在时创建之。
index创建新文档或替换已有文档。
update局部更新文档。
delete删除一个文档。
例如：

POST _bulk
{ "delete": { "_index": "itsource", "_type": "employee", "_id": "123" }}
{ "create": { "_index": "itsource", "_type": "blog", "_id": "123" }}
{ "title": "我发布的博客" }
{ "index": { "_index": "itsource", "_type": "blog" }}
{ "title": "我的第二博客" }

注意：delete后不需要请求体，最后一行要有回车

4.2. 文档的简单查询

4.2.1. 通过文档ID获取

略

4.2.2. 批量获取

mget API参数是一个 docs数组，数组的每个节点定义一个文档的 _index 、 _type 、 _id 元数据。如果你只想检索一个或几个确定的字段，也可以定义一个 _source 参数：

方式1：GET _mget
{
"docs" : [
{
"_index" : "itsource",
"_type" : "blog",
"_id" : 2
},
{
"_index" : "itsource",
"_type" : "employee",
"_id" : 1,
"_source": ["name","age"]
}
]
}
方式2：同一个索引库的同一个类型下
GET itsource/blog/_mget
{
"ids" : [ "2", "1" ]
}

4.2.3. 空搜索

没有指定任何的查询条件，只返回集群索引中的所有文档： GET _search

4.2.4. 分页搜索

和SQL使用 LIMIT 关键字返回只有一页的结果一样，Elasticsearch接受 from 和 size 参数：
size : 每页条数，默认 10
from : 跳过开始的结果数，默认 0
如果你想每页显示5个结果，页码从1到3，那请求如下：

GET _search?size=5
GET _search?size=5&from=5
GET _search?size=5&from=10

4.2.5. 查询字符串搜索

一个搜索可以用纯粹的uri来执行查询。在这种模式下使用搜索，并不是所有的选项都是暴露的。它可以方便快速进行 curl 测试。

查询年龄为25岁的员工
GET itsource/employee/_search?q=age:25
如果q后的参数不指定Fileds则默认查询_all字段（隐含的文档所有字段的连接内容）
类似的查询语法参考lucene，如：

+name:john +tweet:mary
+name:(mary john) +date:>2014-09-10 +(aggregations geo)
age[20 TO 30]

5. DSL查询与过滤

5.1. 什么是DSL查询

由ES提供丰富且灵活的查询语言叫做DSL查询(Query DSL),它允许你构建更加复杂、强大的查询。
DSL(Domain Specific Language特定领域语言)以JSON请求体的形式出现。我们可以这样表示之前关于“倪先华”的查询:
查询字符串模式：GET itsource/employee/_search?q=fullName:倪先华
DSL模式：

GET itsource/employee/_search
{
"query" : {
   "match" : {
   		"fullName" : "倪先华"
}
}
}

对于简单查询，使用查询字符串比较好，但是对于复杂查询，由于条件多，逻辑嵌套复杂，查询字符串不易组织与表达，且容易出错，因此推荐复杂查询通过DSL使用JSON内容格式的请求体代替。

5.2. DSL查询

使用DSL查询，必须要传递query参数给ES。

GET _search
{"query": YOUR_QUERY_HERE}

一个常用的相对完整的DSL查询：

GET itsource/employee/_search
{
"query": {
   "match": {"sex":"女"}
},
"from": 20, 
"size": 10,
" _source": ["fullName", "age", "email"],
"sort": [{"join_date": "desc"},{"age": "asc"}]
}

上面的DSL查询语句代表：查询公司员工性别为女的员工，并按照加入时间降序、年龄升序排列，最终返回第21条至30条数据（只返回名字、年龄和email字段）

5.3. DSL过滤

DSL过滤语句和DSL查询语句非常相似，但是它们的使用目的却不同：
DSL过滤查询文档的方式更像是对于我的条件“有”或者“没有”，而DSL查询语句则像是“有多像”。
DSL过滤和DSL查询在性能上的区别：
 过滤结果可以缓存并应用到后续请求。
 查询语句同时匹配文档，计算相关性，所以更耗时，且不缓存。
 过滤语句可有效地配合查询语句完成文档过滤。
原则上，使用DSL查询做全文本搜索或其他需要进行相关性评分的场景，其它全用DSL过滤。
2.0以上的用法

{
"query": {
   "bool": {
          "must": [
{"match": {"description": "search" }}
],
           "filter": {
               "term": {"tags": "lucene"}
           }
    }
}
}

2.0以前的用法

{
"query": {
   "filtered": {
          "query": {
                 "match": {"description": "search" }
            },
           "filter": {
               "term": {"tags": "lucene"}
           }
    }
}
}

5.4. 使用DSL查询与过滤

① 全匹配（match_all）
普通搜索（匹配所有文档）：

{
"query" : {
"match_all" : {}
}
}

如果需要使用过滤条件（在所有文档中过滤，红色部分默认可不写）：

{
"query" : {
"bool" : {
"must" : [{
"match_all":{}
}],
"filter":{....}
}
}
}

② 标准查询（match和multi_match）
match查询是一个标准查询，不管你需要全文本查询还是精确查询基本上都要用到它。
如果你使用match查询一个全文本字段，它会在真正查询之前用分析器先分析查询字符：

{
"query": {
"match": {
"fullName": "Steven King"
}
}
}

上面的搜索会对Steven King分词，并找到包含Steven或King的文档，然后给出排序分值。
如果用 match 下指定了一个确切值，在遇到数字，日期，布尔值或者 not_analyzed的字符串时，它将为你搜索你给定的值，如：

{ "match": { "age": 26 }}
{ "match": { "date": "2014-09-01" }}
{ "match": { "public": true }}
{ "match": { "tag": "full_text" }}
multi_match  查询允许你做 match查询的基础上同时搜索多个字段：
{
"query":{
"multi_match": {
"query": "Steven King",
"fields": [ "fullName", "title" ]
}
}
}

上面的搜索同时在fullName和title字段中匹配。
提示：match一般只用于全文字段的匹配与查询，一般不用于过滤。

③单词搜索与过滤（Term和Terms）

{
"query": {
"bool": {
"must": { 
"match_all": {} 
}, 
"filter": { 
"term": { 
"tags": "elasticsearch" 
} 
} 
} 
}
}

Terms搜索与过滤

{
"query": {
"terms": {
"tags": ["jvm", "hadoop", "lucene"],
"minimum_match": 2
}
}
}

minimum_match:至少匹配个数，默认为1

④ 组合条件搜索与过滤（Bool）
组合搜索bool可以组合多个查询条件为一个查询对象，查询条件包括must、should和must_not。
例如：查询爱好有美女，同时也有喜欢游戏或运动，且出生于1990-06-30及之后的人。

{
"query": {
"bool": {
"must": [{"term": {"hobby": "美女"}}],
"should": [{"term": {"hobby": "游戏"}}, 
 {"term": {"hobby": "运动"}} 
],
"must_not": [
{"range" :{"birth_date":{"lt": "1990-06-30"}}} 
],
        "filter": [...],
"minimum_should_match": 1
}
}
}

提示：如果 bool 查询下没有must子句，那至少应该有一个should子句。但是如果有 must子句，那么没有 should子句也可以进行查询。
⑤ 范围查询与过滤（range）
range过滤允许我们按照指定范围查找一批数据:

{
"query":{
"range": {
"age": {
"gte": 20,
"lt": 30
}
}
}
}

上例中查询年龄大于等于20并且小于30。

gt:>    gte:>=   lt:<  lte:<=

⑥ 存在和缺失过滤器（exists和missing）

{
"query": {
"bool": {
"must": [{
"match_all": {}
}],
"filter": {
"exists": { "field": "gps" }
}
}
}
}

提示：exists和missing只能用于过滤结果。
⑦ 前匹配搜索与过滤（prefix）
和term查询相似，前匹配搜索不是精确匹配，而是类似于SQL中的like ‘key%’

{
"query": {
"prefix": {
"fullName": "倪"
}
}
}

上例即查询姓倪的所有人。
⑧ 通配符搜索（wildcard）
使用*代表0~N个，使用?代表1个。

{
"query": {
"wildcard": {
"fullName": "倪*华"
}
}
}

小结：DSL查询是ES提供的通用查询方式，这种方式最大的特点是开发语言的无关性，即任意的客户端只要支持HTTP请求，就可以通过JSON格式的查询数据完成复杂的搜索。
查询与过滤在实际的项目开发中是经常遇到的主题。

酒巷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch的初级教学

1.什么是ElasticSearch（ES）？分布式的实时文件存储，每个字段都被索引并可被搜索分布式的实时分析搜索引擎可以扩展到上百台服务器，处理PB级结构化或非结构化数据高度集成化的服务，你的应用可以通过简单的 RESTful API、各种语言的客户端甚至命令行与之交互。2.ES的安装ES服务只依赖于JDK，推荐使用JDK1.7+。① 下载ES安装包官方下载地址：https:/...
复制链接

扫一扫