Elasticsearch 学习

最新推荐文章于 2024-11-06 11:47:40 发布

不会歌唱的老周666

最新推荐文章于 2024-11-06 11:47:40 发布

阅读量952

点赞数 21

文章标签： elasticsearch 微服务全文检索 springboot java idea spring boot

本文链接：https://blog.csdn.net/zhouwenxing666/article/details/135626815

版权

Elasticseach 学习

ES 简介

ES结合kibana、Logstash、Beat，也就是elastic stack(ELK)。用于日志数据分析可视化，实时监控等领域

elasticseach是slastic stack的核心，负责存储，搜索，分析数据

elasticseach的底层是Lucene，Lucene是Java语言的一个搜索引擎类库，是Apache公司的顶级项目，官网https://lucene.apache.org/

基于Lucene做二次开发形成elasticseach

正向索引和倒排索引

传统数据库，如MySQL采用正向索引

![image-20231103141052785](https://gitee.com/zwx0203/cloudimage/raw/master/202311031410896.png

ES 与 MySQL概念对比

文档（可以理解为mysql表中一行数据），序列化为json格式后存储在elasticseach中

索引（index）：相同类型的文档的集合

概念对比

DSL使用JSON风格语句来CRUD。

在MySQL中SQL通过connection发给MySQL。

而DSL通过http来发送请求，因为es给的是restful接口，这种接口与语言无关，任何只要能发http请求的语言都能把它的DSL发给es的restful接口让es进行处理。

问题：什么时候用mysql什么时候用es ？

两者实际上是互补关系，而不是替代的关系

用户写数据直接写到mysql，因为mysql可确保数据安全&一致性。

用户搜索数据则通过es来进行。

通过中间组件将mysql数据同步给es

安装ES、Kibana、Ik分词器

elasticsearch:Elasticsearch 7.12.0 | Elastic

下载解压后，双击bin中的elasticsearch.bat 然后访问http://localhost:9200/ 若生成如下界面则成功

Kibana：Kibana 7.12.0 | Elastic

下载解压后，双击bin中kibana.bat 然后访问http://127.0.0.1:5601/ 若生成如下界面则成功

ik分词器：https://github.com/medcl/elasticsearch-analysis-ik 将ik分词器解压后放到es目录的plugins下

IK分词器的用法

ik_smart 分词算法 ,最少切分

ik_max_word 模式 最细切分

![image-20231103155325717](https://gitee.com/zwx0203/cloudimage/raw/master/202311031553762.png

ik分词器的使用：【精选】ElasticSearch——IK分词器的下载及使用_ik分词器下载-CSDN博客

ik分词器-拓展词库

ik分词器-禁用词库

什么时候分词？

答：有两个时间分词。第一个是将文档创建到索引的时候，要对文档某个内容进行分词，将词条创建倒排索引

第二个是当用户来搜索时，用户输入一大串话，需要给它进行分词

IK分词器总结

索引库操作

索引库对应MySQL中的表，文档对应MySQL表中一行行的数据。

在MySQL中先创建表，才能在表中存入数据。

在elasticsearch中同样先得建立索引库，才能存入文档。

因此，这里先学索引库操作，再学文档操作。

mapping映射属性

es中没有数组，但它允许同一种类型有多个值。数据类型则为数组中数据的类型

索引库的CRUD

创建索引库

创建下面的索引表

#创建索引库
PUT /heima_all
{
  "mappings":{
    "properties": {
      "age": {
        "type": "integer"
      },
      "weigth": {
        "type": "float"
      },
      "isMarried": {
        "type": "boolean"
      },
      "info": {
        "type": "text",
        "analyzer": "ik_max_word"
      },
      "email": {
        "type": "keyword",
        "index": false
      },
      "score": {
        "type": "float"
      },
      "name": {
        "type": "object",
        "properties": {
          "firstname": {
            "type": "keyword"
          },
          "lastName": {
            "type": "keyword"
          }
        }
      }
    }
  }
}

查、删索引库

GET /索引库名

DELETE /索引库名

修改索引库

es禁止修改索引库，但可以添加新的字段

#在heimaa索引库中新增"address"字段
PUT /heimaa/_mapping
{
  "properties": {
    "address": {
      "type": "text",
      "analyzer": "ik_smart"
    }
  }
}

文档的CRUD

新增文档

查询文档，删除文档

修改文档

总结

RestClient操作索引库

案例

要根据多个字段，比如根据brand，name，business等来查，则可以使用copy_to定义一个字段，将brand，name，business等拷贝到指定字段如下。在通过指定字段去查就好了

###酒店demo的mapping
PUT /hotel
{
  "mappings": {
    "properties": {
      "id": {
        "type": "keyword" 
      },
      "name": {
        "type": "text",
        "analyzer": "ik_max_word",
        "copy_to": "all"
      },
      "address": {
        "type": "keyword",
        "index": false 
      },
      "price": {
        "type": "integer"
      },
      "score": {
        "type": "integer"
      },
      "brand": {
        "type": "keyword",
        "copy_to": "all"
      },
      "city": {
        "type": "keyword"
      },
      "starName": {
        "type": "keyword"
      },
      "business": {
        "type": "keyword",
        "copy_to": "all"
      },
      "location": {
        "type": "geo_point"
      },
      "pic": {
        "type": "keyword",
        "index": false
      },
      "all": {
        "type": "text",
        "analyzer": "ik_max_word"
      }
    }
  }
}

步骤3详见 hotel-demo项目 D:\zwx\code3\hotel-demo

步骤4 用JavaRestClient来创建索引库

在测试类中先进行如下操作，http://localhost:9200为ES客户端的地址

private RestHighLevelClient client;

@BeforeEach
void setUp() {
    this.client = new RestHighLevelClient(RestClient.builder(
            HttpHost.create("http://localhost:9200")
    ));
}

@AfterEach
void tearDown() throws IOException {
    this.client.close();
}

总结Java RestClient索引库操作的步骤

RestClient操作文档

案例

步骤1 初始化在操作索引库中已经完成

步骤2 新增文档

 /**
     * 创建文档(倒排索引)
     * @throws IOException
     */
    @Test
    void AddHotelDocument() throws IOException {
        //根据id查询酒店数据
        Hotel hotel = hotelService.getById(47478L);
        //转化为文档类型
        HotelDoc hotelDoc = new HotelDoc(hotel);

        //1 准备request对象
        IndexRequest request = new IndexRequest("hotel").id(hotelDoc.getId().toString());
        //2 准备json 文档
        //JSON.toJSONString(对象) ：将对象序列化为Json
        request.source(JSON.toJSONString(hotelDoc),XContentType.JSON);

        //3 发送请求
        client.index(request, RequestOptions.DEFAULT);
    }

步骤3 查询文档

 /**
     * 查找文档
     * @throws IOException
     */
    @Test
    void getDocumentById() throws IOException {
        //1 准备请求
        GetRequest request = new GetRequest("hotel","47478");

        //2 发出响应，返回结果
        GetResponse response = client.get(request, RequestOptions.DEFAULT);

        //3 处理结果
        String json = response.getSourceAsString();
        HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
        
        System.out.println(hotelDoc);
    }

步骤4 修改文档

/**
     * 修改文档-局部更新
     */
    @Test
    void updateDocumentById() throws IOException {
        //1 创建request对象
        UpdateRequest request = new UpdateRequest("hotel","47478");

        //2 准备参数
        request.doc(
                "name","速8酒店(上海松江中心店)"
        );
        //3
        client.update(request, RequestOptions.DEFAULT);
    }

步骤5 删除文档

   /**
     * 删除文档
     */
    @Test
    void deleteDocumentById() throws IOException {
        //1 创建request对象
        DeleteRequest request = new DeleteRequest("hotel","47478");

        //2 删除
        client.delete(request, RequestOptions.DEFAULT);
    }

总结

RestClient 批量导入Mysql数据到ES

/**
     * 将mysql中酒店数据全导入es
     * @throws IOException
     */
    @Test
    void testBulkRequest() throws IOException {
        //批量查询酒店数据
        List<Hotel> hotels = hotelService.list();

        //1 创建Request
        BulkRequest request = new BulkRequest();
        //2 准备参数 添加多个Request对象
        for (Hotel hotel : hotels) {
            // 将hotel转成hotelDoc
            HotelDoc hotelDoc = new HotelDoc(hotel);
            // 创建新增文档的Request对象, add里面可以写Index,Delete等语句
            request.add(new IndexRequest("hotel")
                    .id(hotelDoc.getId().toString())
                    .source(JSON.toJSONString(hotelDoc), XContentType.JSON));
        }

        //3 发送请求
        client.bulk(request,RequestOptions.DEFAULT);
    }

ES 搜索功能

详见官网文档：[Elasticsearch Guide 8.11] | Elastic

DSL查询语法

全文检索查询

全文检索查询，会对用户输入内容分词，常用于搜索

match查询：全文检索查询的一种，会对用户输入内容分词，然后去倒排索引库检索

multi_match查询：根据多个字段查

查询语法：

###全文检索查询
#match查询  推荐使用 搜索的字段越多，查询的效率越低
GET /hotel/_search
{
  "query": {
    "match": {
      "all": "外滩如家"
    }
  }
}
#multi_match查询
GET /hotel/_search
{
  "query": {
    "multi_match": {
      "query": "外滩如家",
      "fields": ["all","city"]
    }
  }
}

小结

建议使用copyto，把多个要查的字段拷贝到一个字段中。如下 “all” 字段包含了 name，brand，business 三个字段

###酒店demo的mapping
PUT /hotel
{
  "mappings": {
    "properties": {
      "id": {
        "type": "keyword" 
      },
      "name": {
        "type": "text",
        "analyzer": "ik_max_word",
        "copy_to": "all"
      },
      "address": {
        "type": "keyword",
        "index": false 
      },
      "price": {
        "type": "integer"
      },
      "score": {
        "type": "integer"
      },
      "brand": {
        "type": "keyword",
        "copy_to": "all"
      },
      "city": {
        "type": "keyword"
      },
      "starName": {
        "type": "keyword"
      },
      "business": {
        "type": "keyword",
        "copy_to": "all"
      },
      "location": {
        "type": "geo_point"
      },
      "pic": {
        "type": "keyword",
        "index": false
      },
      "all": {
        "type": "text",
        "analyzer": "ik_max_word"
      }
    }
  }
}

精确查询

查keyword、数值、日期、boolean等字段，不分词

例如：

###精确检索： 不分词，搜到的跟给的一模一样
#term查询
GET /hotel/_search
{
  "query": {
    "term": {
      "city": {
        "value": "深圳上海"
      }
    }
  }
}
#range查询
GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "gte": 1108, 
        "lte": 3000
      }
    }
  }
}

小结

地理查询

FIELD的类型为"geo_point"

geo_bounding_box 查询(用的比较少)，

#geo_bounding_box: 查询geo_point值落在某个矩形范围的所有文档
GET /hotel/_search
{
  "query": {
    "geo_bounding_box": {
      "location": {
        "top_left": {
          "lat": 31.1,
          "lon": 121.5
        },
        "bottom_right": {
          "lat": 30.9,
          "lon": 121.7
        }
      }
    }
  }
}

geo_distance 查询（用的多）

#geo_distance 查询
GET /hotel/_search
{
  "query": {
    "geo_distance": {
      "distance": "2km",
      "location": "31.21,121.5"
    }
  }
}

复合查询

前面全文检索查询，精确查询，地理查询统称为简单查询。复合查询是将简单查询组合起来，实现更复杂的搜索逻辑

复合查询之Function score查询

使用Function Score Query 来人为地修改相关性算分（比如针对RMB玩家，让人家的相关性算分高一点）

案例：给"如家"酒店排名靠前

#function score查询
GET /hotel/_search
{
  "query": {
    "function_score": {
      "query": {
        "match": {
          "all": "外滩"
        }
      },
      "functions": [
        {
          "filter": {
            "term": {
              "brand": "如家"
            }
          },
          "weight": 10
        }
      ],
      "boost_mode": "sum"
    }
  }
}

复合查询之Boolean 查询，，也叫过滤查询

案例

放到must中，会影响算分，算分的条件越多，性能越差，故把不重要的放到must_not中

#复合查询之bool查询  过滤查询
GET /hotel/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "name": "如家"
          }
        },
        {
          "geo_distance": {
            "distance": "10km",
            "location": {
              "lat": 31.21,
              "lon": 121.5
            }
          }
        }
      ],
      "must_not": [
        {
          "range": {
            "price": {
              "gt": 400
            }
          }
        }
      ]
    }
  }
}

放到must_not中不影响算分

GET /hotel/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "name": "如家"
          }
        }
      ],
      "must_not": [
        {
          "range": {
            "price": {
              "gt": 400
            }
          }
        }
      ],
      "filter": [
        {
          "geo_distance": {
            "distance": "10km",
            "location": {
              "lat": 31.21,
              "lon": 121.5
            }
          }
        }
      ]
    }
  }
}

bool查询小结

ES搜索结果处理

排序

案例1：酒店数据按照用户评价降序排序，评价相同则按照价格升序排序

#sort 排序
GET /hotel/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "score": "desc"
    },
    {
      "price": "asc" 
    }
  ]
}


GET /hotel/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "score": {
        "order": "desc"
      },
      "price": {
        "order": "asc"
      }
    }
  ]
}

案例2：看地图上哪些酒店离你近，做一个升序排序

分页

from = (第几页 - 1) * size，从1开始

GET /hotel/_search
{
  "query": {"match_all": {}},
  "sort": [{"price": "asc"}],
  "from": 9990  ,
  "size": 10
}

深度分页问题

es分页小结（from+size用的最多）

高亮

把搜索结果中的关键字高亮显示

#高亮，#默认标签是<em>。 默认情况下，ES搜索字段必须与高亮字段一致,但可以把"require_field_match" 设为false来实现，搜索字段与高亮字段不一致也可以高亮
GET /hotel/_search
{
  "query": {
    "match": {
      "all": "如家"
    }
  }, 
  "highlight": {
    "fields": {
      "name": {
        "pre_tags": "<em>", # 这两句可以不写，因为Es默认就是这两句 
        "post_tags": "</em>", #
        "require_field_match": "false"
      }
    }
  }
}

ES搜索结果处理整体语法

RestClient 查询文档

返回结果的字段解析

查询

match、multi_match、match_all

QueryBuilders.matchAllQuery()

精确查询

复合查询

 @Test
    void testBool() throws IOException {
        //1 准备request
        SearchRequest request = new SearchRequest("hotel");

        //2 准备DSL
        // 准备booleanQuery
        BoolQueryBuilder booledQuery = QueryBuilders.boolQuery();
        // 添加term
        booledQuery.must(QueryBuilders.termQuery("city","深圳"));

        booledQuery.filter(QueryBuilders.rangeQuery("price").lte(350));

        request.source().query(booledQuery);
        //3 发送请求
        SearchResponse response = client.search(request, RequestOptions.DEFAULT);

        //4 处理请求
        handleResponse(response);
    }

    private static void handleResponse(SearchResponse response) {
        //解析结果
        SearchHits searchHits = response.getHits();

        long total = searchHits.getTotalHits().value;

        System.out.println("一共搜索到" + total + "条数据");

        SearchHit[] hits = searchHits.getHits();

        for (SearchHit hit : hits) {

            String json = hit.getSourceAsString();

            HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);

            System.out.println(hotelDoc);
        }
    }

要构建查询只需要记住QueryBuilders类就行了

排序和分页

对搜索结果的排序和分页是与查询在同级的参数

 @Test
    void testPageAndSort() throws IOException {
        //页码， 每页大小
        int page = 2,size =5;

        //1 准备request
        SearchRequest request = new SearchRequest("hotel");

        //2 准备DSL
        //2.1 query
        request.source().query(QueryBuilders.matchAllQuery());
        //2.2 sort
        request.source().sort("price", SortOrder.ASC);
        //2.3 分页 from、size
        request.source().from((page - 1) * size).size(5);
        //3 发送请求
        SearchResponse response = client.search(request, RequestOptions.DEFAULT);

        //4 处理请求
        handleResponse(response);
    }

高亮

@Test
void testHighlight() throws IOException {
    //页码， 每页大小
    int page = 2,size =5;


    //1 准备request
    SearchRequest request = new SearchRequest("hotel");

    //2 准备DSL
    //2.1 query
    request.source().query(QueryBuilders.matchQuery("all","如家  "));

    //2.4 高亮 highlight
    request.source().highlighter(new HighlightBuilder().field("name").requireFieldMatch(false));
    //3 发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);

    //4 处理请求
    handleHighlightResponse(response);
}
    
    
private static void handleHighlightResponse(SearchResponse response) {
    //4解析结果
    SearchHits searchHits = response.getHits();
    //4.1 获取总条数
    long total = searchHits.getTotalHits().value;
    System.out.println("一共搜索到" + total + "条数据");
    //4.2 文档数组
    SearchHit[] hits = searchHits.getHits();
    //4.3 遍历
    for (SearchHit hit : hits) {
        //获取文档source
        String json = hit.getSourceAsString();
        //反序列化
        HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
        //获取高亮结果
        Map<String, HighlightField> highlightFields = hit.getHighlightFields();
        if (!CollectionUtils.isEmpty(highlightFields)){
            //根据字段名获取高亮结果
            HighlightField highlightField = highlightFields.get("name");

            if (highlightField != null) {
                //获取高亮值
                String name = highlightField.getFragments()[0].string();
                //覆盖非高亮结果
                hotelDoc.setName(name);
            }
        }

        System.out.println(hotelDoc);
    }
}

黑马旅游案例

酒店搜索和分页
酒店结果过滤
我周边的酒店
酒店竞价排名

启动hotel-deomo服务，进入http://localhost:8089/

酒店搜索与分页

酒店结果过滤

我附近的酒店

广告置顶

#添加isAD字段
POST /hotel/_update/1908594080
{
  "doc": {
    "isAD": true
  }
}

POST /hotel/_update/1725781423
{
  "doc": {
    "isAD": true
  }
}

function score 组合查询Java语法

不会歌唱的老周666

关注

21
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Elasticsearch 学习

Elasticseach 学习

ES 简介

正向索引和倒排索引

ES 与 MySQL概念对比

安装ES、Kibana、Ik分词器

IK分词器的用法

索引库操作

mapping映射属性

索引库的CRUD

创建索引库

查、删 索引库

修改索引库

文档的CRUD

新增文档

查询文档，删除文档

修改文档

RestClient操作索引库

RestClient操作文档

RestClient 批量导入Mysql数据到ES

ES 搜索功能

DSL查询语法

全文检索查询

精确查询

地理查询

复合查询

相关性算分

复合查询之Function score查询

复合查询之Boolean 查询，，也叫过滤查询

ES搜索结果处理

排序

分页

高亮

ES搜索结果处理整体语法

RestClient 查询文档

返回结果的字段解析

查询

排序和分页

高亮

黑马旅游案例

酒店搜索与分页

酒店结果过滤

我附近的酒店

广告置顶

查、删索引库