ElasticSearch中间件相关知识

小曹曹曹曹曹曹曹

已于 2023-08-28 13:09:45 修改

阅读量399

点赞数

分类专栏： # 中间件文章标签： java es

于 2023-08-28 13:06:25 首次发布

本文链接：https://blog.csdn.net/weixin_54505261/article/details/132536582

版权

中间件专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、基础知识

1.什么是ES

Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#）、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，Elasticsearch中间件可以帮助开发人员简化Elasticsearch的使用和管理，提供更友好的接口和工具，提高开发效率和系统性能。

重要特性：

分布式的实时文件存储，每个字段都被索引并可被搜索
实时分析的分布式搜索引擎
可以扩展到上百台服务器，处理PB级结构化或非结构化数据

2.ES的相关基础知识点

2.1 倒排索引

倒排索引是相对于MySQL之类的正向索引而言的

在了解正向索引和倒排索引之前，先知道两个概念：文档和词条

文档（ Document ）：用来搜索的数据，其中的每一条数据就是一个文档。例如一个网页、一个商品信息
词条（ Term ）：对文档数据或用户搜索数据，利用某种算法分词，得到的具备含义的词语就是词条。例如：我是中国人，就可以分为：我、是、中国人、中国、国人这样的几个词条

2.1.1 正向索引

正向索引是最传统的，根据id索引的方式。但根据词条查询时，必须先逐条获取每个文档，然后判断文档中是否包含所需要的词条，是根据文档找词条的过程。

例如给下表的id创建索引,那么直接走索引，查询速度非常快。但如果是基于title做模糊查询，只能是逐行扫描数据:

2.1.2 倒排索引

倒排索引则是先找到用户要搜索的词条，根据词条得到保护词条的文档的id，然后根据id 获取文档。是根据词条找文档的过程。

创建倒排索引是对正向索引的一种特殊处理，流程如下：

将每一个文档的数据利用算法分词，得到一个个词条
创建表，每行数据包括词条、词条所在文档id、位置等信息
因为词条唯一性，可以给词条创建索引，例如hash表结构索引

倒排索引的搜索流程如下（以搜索"华为手机"为例）：

1）用户输入条件 "华为手机" 进行搜索。
2）对用户输入内容分词，得到词条：华为、手机。
3）拿着词条在倒排索引中查找，可以得到包含词条的文档id：1、2、3。
4）拿着文档id到正向索引中查找具体文档。

2.1.3 正向索引和倒排索引的优缺点对比

	优点	缺点
正向索引	可以给多个字段创建索引根据索引字段搜索、排序速度非常快	根据非索引字段，或者索引字段中的部分词条查找时，只能全表扫描。
倒排索引	根据词条搜索、模糊搜索时，速度非常快	只能给词条创建索引，而不是字段无法根据字段做排序

2.2 文档和字段

elasticsearch是面向文档（Document）存储的，可以是数据库中的一条商品数据，一个订单信息。文档数据会被序列化为json格式后存储在elasticsearch中：

而Json文档中往往包含很多的字段（Field），类似于数据库中的列。

2.3 索引和映射

索引（Index），就是相同类型的文档的集合。我们可以把索引当作数据库中的表，数据库的表会有约束信息，用来定义表的结构、字段的名称、类型等信息。因此，索引库中就有映射（mapping），是索引中文档的字段约束信息，类似表的结构约束。

例如：

2.4 mysql与elasticsearch的概念对比

MySQL	Elasticsearch	说明
Table	Index	索引(index)，就是文档的集合，类似数据库的表(table)
Row	Document	文档（Document），就是一条条的数据，类似数据库中的行（Row），文档都是JSON格式
Column	Field	字段（Field），就是JSON文档中的字段，类似数据库中的列（Column）
Schema	Mapping	Mapping（映射）是索引中文档的约束，例如字段类型约束。类似数据库的表结构（Schema）
SQL	DSL	DSL是elasticsearch提供的JSON风格的请求语句，用来操作 elasticsearch，实现CRUD

Mysql：擅长事务类型操作，可以确保数据的安全和一致性
Elasticsearch：擅长海量数据的搜索、分析、计算

二、ES相关操作

1.ES的安装与使用

1.1 环境安装

Windows版ES下载：

Download Elasticsearch | Elastic

Windows版ES安装与启动：

运行 elasticsearch.bat
访问localhost:9200能看到json代表启动成功

1.2 IK分词器

分词器的作用：

创建倒排索引时对文档分词
用户搜索时，对输入的内容分词

IK分词器的两种模式：

ik_smart：智能切分，粗粒度
ik_max_word：最细切分，细粒度

安装

Releases · medcl/elasticsearch-analysis-ik · GitHub
在ES安装目录下找到plugins目录创建ik文件夹
将ik分词器解压缩在此目录并重启ES即可

2.索引库操作

索引库就类似数据库表，mapping映射就类似表的结构。我们要向es中存储数据，必须先创建“库”和“表”。

2.1 mapping映射属性

mapping是对索引库中文档的约束，常见的mapping属性包括：

type：字段数据类型，常见的简单类型有：

字符串：text（可分词的文本）、keyword（精确值，例如：品牌、国家、ip地址）
数值：long、integer、short、byte、double、float、
布尔：boolean
日期：date
对象：object

index：是否创建索引，默认为true

analyzer：使用哪种分词器

properties：该字段的子字段

例：

{

"age": 18,

"weight": 70.2,

"isMarried": false,

"info": "冉冉升起的秃头巨星",

"email": "wangls@163.com",

"score": [99.1, 99.5, 98.9],

"name": {

"firstName": "颖",

"lastName": "曹"

}

}

2.2 索引库的操作

2.2.1 创建索引库和映射

基本语法：

请求方式：PUT
请求路径：/索引库名，可以自定义
请求参数：mapping映射

格式：

PUT /索引库名称

{

"mappings": {

"properties": {

"字段名":{

"type": "text",

"analyzer": "ik_smart"

},

"字段名2":{

"type": "keyword",

"index": "false"

},

"字段名3":{

"properties": {

"子字段": {

"type": "keyword"

}

}

},

// ...略

}

}

}

2.2.2 查询索引库

基本语法：

请求方式：GET
请求路径：/索引库名
请求参数：无
格式：GET /索引库名

2.2.3 修改索引库

倒排索引结构虽然不复杂，但是一旦数据结构改变（比如改变了分词器），就需要重新创建倒排索引。因此索引库一旦创建，无法修改mapping。虽然无法修改mapping中已有的字段，但是却允许添加新的字段到mapping中，因为不会对倒排索引产生影响。

语法说明：

PUT /索引库名/_mapping

{

"properties": {

"新字段名":{

"type": "integer"

}

}

}

2.2.4 删除索引库

语法：

请求方式：DELETE
请求路径：/索引库名
请求参数：无
格式：DELETE /索引库名

2.3 文档的操作

2.3.1 新增文档

语法：

POST /索引库名/_doc/文档id

{

"字段1": "值1",

"字段2": "值2",

"字段3": {

"子属性1": "值3",

"子属性2": "值4"

},

// ...

}

响应： result:created

2.3.2 查询文档

根据rest风格，新增是post，查询应该是get，不过查询一般都需要条件，这里我们把文档id带上

语法：

GET /{索引库名称}/_doc/{id}

查看数据：

GET /apesource/_doc/1

DSL查询分类

Elasticsearch提供了基于JSON的DSL（Domain Specific Language）来定义查询。常见的查询类型包括：

查询所有：查询出所有数据，一般测试用(不会显示出所有，自带分页功能)。例如：match_all
全文检索（full text）查询：利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如：
match_query：单字段查询

multi_match_query：多字段查询，任意一个字段符合条件就算符合查询条件
精确查询：根据精确词条值查找数据，一般是查找keyword、数值、日期、boolean等类型字段。
例如： ids range根据值的范围查询 term根据词条精确值查询
地理（geo）查询：根据经纬度查询。
例如： geo_distance geo_bounding_box
复合（compound）查询：复合查询可以将上述各种查询条件组合起来，合并查询条件。
例如： bool function_score

2.2.3 删除文档

删除使用DELETE请求，同样，需要根据id进行删除

语法：

DELETE /{索引库名}/_doc/id值

示例：

# 根据id删除数据

DELETE /apesource/_doc/1

结果： result:deleted

2.2.4 修改文档

修改有两种方式：

全量修改：直接覆盖原来的文档
增量修改：修改文档中的部分字段

2.2.4.1 全量修改

全量修改是覆盖原来的文档，其本质是：

根据指定的id删除文档
新增一个相同id的文档
注意：如果根据id删除时，id不存在，第二步的新增也会执行，也就从修改变成了新增操作了。

语法：

PUT /{索引库名}/_doc/文档id

{

"字段1": "值1",

"字段2": "值2",

// ... 略

}

2.2.4.2 增量修改

增量修改是只修改指定id匹配的文档中的部分字段。

语法：

POST /{索引库名}/_update/文档id

{

"doc": {

"字段名": "新的值",

}

}

三、springboot整合ES（RestClient）

1.对索引库操作

avaRestClient操作elasticsearch的流程基本类似。核心是client.indices()方法来获取索引库的操作对象。

索引库操作的基本步骤：

初始化RestHighLevelClient
创建XxxIndexRequest。XXX是Create、Get、Delete
准备DSL（ Create时需要，其它是无参）发
送请求。调用RestHighLevelClient#indices().xxx()方法，xxx是create、exists、delete

1.1 初始化Restclient

在elasticsearch提供的API中，与elasticsearch一切交互都封装在一个名为RestHighLevelClient的类中，必须先完成这个对象的初始化，建立与elasticsearch的连接。

1）引入es的RestHighLevelClient依赖：

<dependency>
<groupId>org.elasticsearch.client</groupId>
<artifactId>elasticsearch-rest-high-level-client</artifactId>
</dependency>

2）因为SpringBoot默认的ES版本是7.6.2，所以我们需要覆盖默认的ES版本

<properties>
<java.version>1.8</java.version>
<elasticsearch.version>7.12.0</elasticsearch.version>
</properties>

3）初始化RestHighLevelClient

RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(
HttpHost.create("http://localhost:9200")
));

这里为了单元测试方便，我们创建一个测试类HotelIndexTest，然后将初始化的代码编写在 @BeforeEach方法中

public class HotelIndexTest {
    private RestHighLevelClient client;
  
    @BeforeEach
    void setUp() {
        this.client = new RestHighLevelClient(RestClient.builder(
                HttpHost.create("http://localhost:9200")
        ));
    }

    @AfterEach
    void tearDown() throws IOException {
        this.client.close();
    }
}

1.2 创建索引库

创建索引库的API如：创建一个类，定义mapping映射的JSON字符串常量：

public class HotelConstants {
    public static final String MAPPING_TEMPLATE = "{\n" +
        " \"mappings\": {\n" +
        " \"properties\": {\n" +
        " \"id\": {\n" +
        " \"type\": \"keyword\"\n" +
        " },\n" +
        " \"name\":{\n" +
        " \"type\": \"text\",\n" +
        " \"analyzer\": \"ik_max_word\",\n" +
        " \"copy_to\": \"all\"\n" +
        " },\n" +
        " \"address\":{\n" +
        " \"type\": \"keyword\",\n" +
        " \"index\": false\n" +
        " },\n" +
        " \"price\":{\n" +
        " \"type\": \"integer\"\n" +
        " },\n" +
        " \"score\":{\n" +
        " \"type\": \"integer\"\n" +
        " },\n" +
        " \"brand\":{\n" +
        " \"type\": \"keyword\",\n" +
        " \"copy_to\": \"all\"\n" +
        " },\n" +
        " \"city\":{\n" +
        " \"type\": \"keyword\",\n" +
        " \"copy_to\": \"all\"\n" +
        " },\n" +
        " \"starName\":{\n" +
        " \"type\": \"keyword\"\n" +
        " },\n" +
        " \"business\":{\n" +
        " \"type\": \"keyword\"\n" +
        " },\n" +
        " \"location\":{\n" +
        " \"type\": \"geo_point\"\n" +
        " },\n" +
        " \"pic\":{\n" +
        " \"type\": \"keyword\",\n" +
        " \"index\": false\n" +
        " },\n" +
        " \"all\":{\n" +
        " \"type\": \"text\",\n" +
        " \"analyzer\": \"ik_max_word\"\n" +
        " }\n" +
        " }\n" +
        " }\n" +
        "}";
}

在hotel-demo中的HotelIndexTest测试类中，编写单元测试，实现创建索引：

@Test
void createHotelIndex() throws IOException {
    // 1.创建Request对象
    CreateIndexRequest request = new CreateIndexRequest("hotel");
    // 2.准备请求的参数：DSL语句
    request.source(MAPPING_TEMPLATE, XContentType.JSON);
    // 3.发送请求
    client.indices().create(request, RequestOptions.DEFAULT);
}

1.3 删除索引库

在hotel-demo中的HotelIndexTest测试类中，编写单元测试，实现删除索引：

@Test
void testDeleteHotelIndex() throws IOException {
    // 1.创建Request对象
    DeleteIndexRequest request = new DeleteIndexRequest("hotel");
    // 2.发送请求
    client.indices().delete(request, RequestOptions.DEFAULT);
}

1.4 判断索引库是否存在

@Test
void testExistsHotelIndex() throws IOException {
    // 1.创建Request对象
    GetIndexRequest request = new GetIndexRequest("hotel");
    // 2.发送请求
    boolean exists = client.indices().exists(request, RequestOptions.DEFAULT);
    // 3.输出
    System.err.println(exists ? "索引库已经存在！" : "索引库不存在！");
}

2. RestClient操作文档

文档操作的基本步骤：

初始化RestHighLevelClient
创建XxxRequest。XXX是Index、Get、Update、Delete、Bulk
准备参数（Index、Update、Bulk时需要）
发送请求。调用RestHighLevelClient#.xxx()方法，xxx是index、get、update、delete、bulk
解析结果（Get时需要）

2.1 新增文档

与数据库相关的实体类

@Data
@TableName("tb_hotel")
public class Hotel {
    @TableId(type = IdType.INPUT)
    private Long id;
    private String name;
    private String address;
    private Integer price;
    private Integer score;
    private String brand;
    private String city;
    private String starName;
    private String business;
    private String longitude;
    private String latitude;
    private String pic;
}

为ES索引库设计实体类： longitude和latitude需要合并为location

import lombok.Data;
import lombok.NoArgsConstructor;
@Data
@NoArgsConstructor
public class HotelDoc {
    private Long id;
    private String name;
    private String address;
    private Integer price;
    private Integer score;
    private String brand;
    private String city;
    private String starName;
    private String business;
    private String location;
    private String pic;

    public HotelDoc(Hotel hotel) {
        this.id = hotel.getId();
        this.name = hotel.getName();
        this.address = hotel.getAddress();
        this.price = hotel.getPrice();
        this.score = hotel.getScore();
        this.brand = hotel.getBrand();
        this.city = hotel.getCity();
        this.starName = hotel.getStarName();
        this.business = hotel.getBusiness();
        this.location = hotel.getLatitude() + ", " + hotel.getLongitude();
        this.pic = hotel.getPic();
     }
}

在hotel-demo的HotelDocumentTest测试类中，编写单元测试：

@Test
void testAddDocument() throws IOException {
    // 1.根据id查询酒店数据
    Hotel hotel = hotelService.getById(61083L);
    // 2.转换为文档类型
    HotelDoc hotelDoc = new HotelDoc(hotel);
    // 3.将HotelDoc转json
    String json = JSON.toJSONString(hotelDoc);
    // 1.准备Request对象
    IndexRequest request = new
    IndexRequest("hotel").id(hotelDoc.getId().toString());
    // 2.准备Json文档
    request.source(json, XContentType.JSON);
    // 3.发送请求
    client.index(request, RequestOptions.DEFAULT);
}

2.2 查询文档

文档的查询同样适用于 RestHighLevelClient对象，基本步骤包括：

1）准备Request对象
2）准备请求参数
3）发起请求
4）解析响应

以match_all查询为例，完整代码如下：

@Test
void testMatchAll() throws IOException {
    // 1.准备Request
    SearchRequest request = new SearchRequest("hotel");
    // 2.准备DSL，QueryBuilders构造查询条件
    request.source()
        .query(QueryBuilders.matchAllQuery());
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);
}

private void handleResponse(SearchResponse response) {
    // 4.解析响应
    SearchHits searchHits = response.getHits();
    // 4.1.获取总条数
    long total = searchHits.getTotalHits().value;
    System.out.println("共搜索到" + total + "条数据");
    // 4.2.文档数组
    SearchHit[] hits = searchHits.getHits();
    // 4.3.遍历
    for (SearchHit hit : hits) {
        // 获取文档source
        String json = hit.getSourceAsString();
        // 反序列化
        HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
        System.out.println("hotelDoc = " + hotelDoc);
    }
}

简单查询只需要在hotel-demo的HotelDocumentTest测试类中，编写单元测试：

@Test
void testGetDocumentById() throws IOException {
    // 1.准备Request
    GetRequest request = new GetRequest("hotel", "61082");
    // 2.发送请求，得到响应
    GetResponse response = client.get(request, RequestOptions.DEFAULT);
    // 3.解析响应结果
    String json = response.getSourceAsString();

    HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
    System.out.println(hotelDoc);
}

2.3 删除文档

在hotel-demo的HotelDocumentTest测试类中，编写单元测试：

@Test
void testDeleteDocument() throws IOException {
    // 1.准备Request
    DeleteRequest request = new DeleteRequest("hotel", "61083");
    // 2.发送请求
    client.delete(request, RequestOptions.DEFAULT);
}

2.4 修改文档

修改我们讲过两种方式：

全量修改：本质是先根据id删除，再新增
增量修改：修改文档中的指定字段值
在RestClient的API中，全量修改与新增的API完全一致

在hotel-demo的HotelDocumentTest测试类中，编写单元测试：

@Test
void testUpdateDocument() throws IOException {
    // 1.准备Request
    UpdateRequest request = new UpdateRequest("hotel", "61083");
    // 2.准备请求参数
    request.doc(
        "price", "952",
        "starName", "四钻"
    );
    // 3.发送请求
    client.update(request, RequestOptions.DEFAULT);
}

2.5 批量导入文档

在hotel-demo的HotelDocumentTest测试类中，编写单元测试：

@Test
void testBulkRequest() throws IOException {
    // 批量查询酒店数据
    List<Hotel> hotels = hotelService.list();
    // 1.创建Request
    BulkRequest request = new BulkRequest();
    // 2.准备参数，添加多个新增的Request
    for (Hotel hotel : hotels) {
        // 2.1.转换为文档类型HotelDoc
        HotelDoc hotelDoc = new HotelDoc(hotel);
        // 2.2.创建新增文档的Request对象
        request.add(new IndexRequest("hotel")
            .id(hotelDoc.getId().toString())
            .source(JSON.toJSONString(hotelDoc), XContentType.JSON));
    }
    // 3.发送请求
    client.bulk(request, RequestOptions.DEFAULT);
}