Elasticsearch

最新推荐文章于 2024-03-26 10:40:31 发布

浅夏留年

最新推荐文章于 2024-03-26 10:40:31 发布

阅读量585

点赞数 1

文章标签： 1024程序员节 elasticsearch java

本文链接：https://blog.csdn.net/weixin_53335648/article/details/127007458

版权

1. 初识ElasticSearch

1.1 基于数据库查询的问题

在这里插入图片描述

查询效率低，模糊查询数据库不会使用索引
查询的准确率不高

1.2 倒排索引

倒排索引：将文档进行分词，形成词条和id的对应关系即为反向索引。

以唐诗为例，所处包含“前”的诗句

正向索引：由《静夜思》–>窗前明月光—>“前”字

反向索引：“前”字–>窗前明月光–>《静夜思》

反向索引的实现就是对诗句进行分词，分成单个的词，由词推句，即为反向索引

“床前明月光”–> 分词；将一段文本按照一定的规则，拆分为不同的词条（term）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eo4YB0Nr-1663903327650)(img/1580887683510.png)]

倒排索引中的Value通常是文档的唯一标识（ID）

在这里插入图片描述

1.3 ES存储和查询的原理

index（索引）：相当于mysql的库

映射：相当于mysql 的表结构

document(文档)：相当于mysql的表中的数据

数据库查询存在的问题：

性能低：使用模糊查询，左边有通配符，不会走索引，会全表扫描，性能低
功能弱：如果以”华为手机“作为条件，查询不出来数据

Es使用倒排索引，对title 进行分词

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tuoVuU8B-1663903327652)(img/1581143412491.png)]

使用“手机”作为关键字查询

生成的倒排索引中，词条会排序，形成一颗树形结构，提升词条的查询速度
使用“华为手机”作为关键字查询

华为：1,3

手机：1,2,3

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-apwYhX1D-1663903327652)(img/1581143489911.png)]

1.4 ES 概念详解

ES是一个基于Lucene的搜索服务器
ES是一个分布式、高扩展、高实时的搜索与数据分析引擎
ES基于RESTful web接口
Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎
官网：https://www.elastic.co/

应用场景

海量数据的查询/搜索
日志数据分析
实时数据分析

2. 安装ElasticSearch

下载地址：https://www.elastic.co/cn/downloads/elasticsearch

3. ElasticSearch核心概念

索引（index）

ElasticSearch存储数据的地方，可以理解成关系型数据库中的数据库概念。

映射（mapping）

mapping定义了每个字段的类型、字段所使用的分词器等。相当于关系型数据库中的表结构。

文档（document）

Elasticsearch中的最小数据单元，常以json格式显示。一个document相当于关系型数据库中的一行数据。

倒排索引

一个倒排索引由文档中所有不重复词的列表构成，对于其中每个词，对应一个包含它的文档id列表。

类型（type）

一种type就像一类表。如用户表、角色表等。在Elasticsearch7.X默认type为_doc

ES 5.x中一个index可以有多种type。
ES 6.x中一个index只能有一种type。
ES 7.x以后，将逐步移除type这个概念，现在的操作已经不再使用，默认_doc

4. 脚本操作ES

4.1 RESTful风格

REST（Representational State Transfer），表述性状态转移，是一组架构约束条件和原则。满足这些约束条件和原则的应用程序或设计就是RESTful。就是一种定义接口的规范。
基于HTTP。
使用XML格式定义或JSON格式定义。
每一个URI代表1种资源。
客户端使用GET、POST、PUT、DELETE 4个表示操作方式的动词对服务端资源进行操作：
- GET：用来获取资源
- POST：用来新建资源（也可以用于更新资源）
- PUT：用来更新资源
- DELETE：用来删除资源

4.2 操作索引

添加索引

PUT http://ip:端口/索引名称

查询索引

GET http://ip:端口/索引名称               # 查询单个索引信息
GET http://ip:端口/索引名称1,索引名称2...  # 查询多个索引信息
GET http://ip:端口/_all                 # 查询所有索引信息

删除索引

DELETE http://ip:端口/索引名称

关闭/打开索引

POST http://ip:端口/索引名称/_close  # 关闭索引
POST http://ip:端口/索引名称/_open   # 打开索引

4.3 ES数据类型

1）简单数据类型

字符串

text：会分词，不支持聚合					# 聚合：相当于mysql 中的sum（求和）
keyword：不会分词，将全部内容作为一个词条，支持聚合

数值
布尔：boolean
二进制：binary
范围类型

integer_range, float_range, long_range, double_range, date_range

日期:date

2）复杂数据类型

数组：[ ] 数组类型的JSON对象
对象：{ } 单个JSON对象

4.4 操作映射

添加映射

# 添加索引
PUT person
# 查询索引 
GET person
# 给索引添加映射
PUT /person/_mapping
{
  "properties":{
    "name":{
      "type":"text"
    },
    "age":{
      "type":"integer"
    }
  }
}

创建索引并添加映射

#创建索引并添加映射
PUT /person1
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text"
      },
      "age": {
        "type": "integer"
      }
    }
  }
}
# 查询索引
GET person1/_mapping

添加字段

#添加字段
PUT /person1/_mapping
{
  "properties": {
      "address": {
        "type": "text"
      }
    }
}

4.5 操作文档

添加文档，指定id

# 添加文档
POST /person1/_doc/2
{
  "name":"张三",
  "age":18,
  "address":"北京"
}

# 根据id查询文档
GET /person1/_doc/1

添加文档，不指定id

#添加文档，不指定id
POST /person1/_doc/
{
  "name":"张三",
  "age":18,
  "address":"北京"
}

#查询所有文档
GET /person1/_search

删除文档

#删除指定id文档
DELETE /person1/_doc/1

5. 分词器

5.1 分词器-介绍

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包
是一个基于Maven构建的项目，具有60万字/秒的高速处理能力
支持用户词典扩展定义
下载地址：https://github.com/medcl/elasticsearch-analysis-ik/archive/v7.4.0.zip

5.2 ik分词器安装

执行如下命令时如果出现打包失败（501码）将maven镜像换成阿里云的

mvn package

vim /opt/apache-maven-3.1.1/conf/setting.xml

<mirror>
    <id>alimaven</id>
    <name>aliyun maven</name>
    <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
    <mirrorOf>central</mirrorOf>
</mirror>

5.3 ik分词器使用

IK分词器有两种分词模式：ik_max_word和ik_smart模式。

1）ik_max_word

会将文本做最细粒度的拆分，比如会将“乒乓球明年总冠军”拆分为“乒乓球、乒乓、球、明年、总冠军、冠军。

#方式一ik_max_word
GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "乒乓球明年总冠军"
}

ik_max_word分词器执行如下：

{
  "tokens" : [
    {
      "token" : "乒乓球",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "乒乓",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "球",
      "start_offset" : 2,
      "end_offset" : 3,
      "type" : "CN_CHAR",
      "position" : 2
    },
    {
      "token" : "明年",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "总冠军",
      "start_offset" : 5,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "冠军",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 5
    }
  ]
}

2）ik_smart

会做最粗粒度的拆分，比如会将“乒乓球明年总冠军”拆分为乒乓球、明年、总冠军。

#方式二ik_smart
GET /_analyze
{
  "analyzer": "ik_smart",
  "text": "乒乓球明年总冠军"
}

ik_smart分词器执行如下：

{
  "tokens" : [
    {
      "token" : "乒乓球",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "明年",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "总冠军",
      "start_offset" : 5,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 2
    }
  ]
}

由此可见使用ik_smart可以将文本"text": "乒乓球明年总冠军"分成了【乒乓球】【明年】【总冠军】

这样看的话，这样的分词效果达到了我们的要求。

5.4 查询文档

1）准备工作

创建索引，添加映射，并指定分词器为ik分词器

PUT person2
{
  "mappings": {
    "properties": {
      "name": {
        "type": "keyword"
      },
      "address": {
        "type": "text",
        "analyzer": "ik_max_word"
      }
    }
  }
}

添加文档

POST /person2/_doc/1
{
  "name":"张三",
  "age":18,
  "address":"北京海淀区"
}

POST /person2/_doc/2
{
  "name":"李四",
  "age":18,
  "address":"北京朝阳区"
}

POST /person2/_doc/3
{
  "name":"王五",
  "age":18,
  "address":"北京昌平区"
}

查询映射

GET person2

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6IILwdxn-1663903327653)(img/1580879388109.png)]

查看分词效果

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": "北京海淀"
}

2）term查询

term词条查询不会分析查询条件，只有当词条和查询字符串完全匹配时才匹配搜索。

查询person2中匹配到"北京"两字的词条

GET /person2/_search
{
  "query": {
    "term": {
      "address": {
        "value": "北京"
      }
    }
  }
}

3）match查询

match全文查询会分析查询条件，先将查询条件进行分词，然后查询，求并集

全文查询会分析查询条件，先将查询条件进行分词，然后查询，求并集

GET /person2/_search
{
  "query": {
    "match": {
      "address":"北京昌平"
    }
  }
}

6. JavaApi操作ES

6.1 SpringBoot整合ES

搭建SpringBoot工程
引入ElasticSearch相关坐标

<!--引入es的坐标-->
<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
</dependency>

测试

配置ElasticSearchConfig

@ConfigurationProperties(prefix = "elasticsearch")
@Configuration
@Data
public class ElasticsearchConfig  extends AbstractElasticsearchConfiguration {
 
    private String host ;
    private Integer port ;
 
    @Override
    public RestHighLevelClient elasticsearchClient() {
        RestClientBuilder builder = RestClient.builder(new HttpHost(host, port));
        RestHighLevelClient restHighLevelClient = new
                RestHighLevelClient(builder);
        return restHighLevelClient;
    }
    @Bean
    public ElasticsearchRestTemplate elasticsearchRestTemplate(RestHighLevelClient elasticsearchClient){
        return new ElasticsearchRestTemplate(elasticsearchClient);
    }
}

6.2 创建索引

添加索引，删除索引

/**
* <p>
* 测试 ElasticTemplate 的创建/删除
* </p>

*/
public class TemplateTest extends SpringBootDemoElasticsearchApplicationTests {
   @Autowired
   private ElasticsearchTemplate esTemplate;

   /**
    * 测试 ElasticTemplate 创建 index
    */
   @Test
   public void testCreateIndex() {
       // 创建索引，会根据Item类的@Document注解信息来创建
       esTemplate.createIndex(Person.class);

       // 配置映射，会根据Item类中的id、Field等字段来自动完成映射
       esTemplate.putMapping(Person.class);
   }

   /**
    * 测试 ElasticTemplate 删除 index
    */
   @Test
   public void testDeleteIndex() {
       esTemplate.deleteIndex(Person.class);
   }
}

6.3 创建实体类Person

/**
 * <p>
 * 用户实体类
 * </p>
 *
 * @author yangkai.shen
 * 
 */
@Document(indexName = contact.INDEX_NAME, type = EsConsts.TYPE_NAME, shards = 1, replicas = 0)
@Data
@NoArgsConstructor
@AllArgsConstructor
public class Person {
    /**
     * 主键
     */
    @Id
    private Long id;

    /**
     * 名字
     */
    @Field(type = FieldType.Keyword)
    private String name;

    /**
     * 国家
     */
    @Field(type = FieldType.Keyword)
    private String country;

    /**
     * 年龄
     */
    @Field(type = FieldType.Integer)
    private Integer age;

    /**
     * 生日
     */
    @Field(type = FieldType.Date)
    private Date birthday;

    /**
     * 介绍
     */
    @Field(type = FieldType.Text, analyzer = "ik_smart")
    private String remark;
}

6.4 配置Person的Dao类，PersonRepository.java

/**
 * <p>
 * 用户持久层
 * </p>
  
 */
public interface PersonRepository extends ElasticsearchRepository<Person, Long> {

    /**
     * 根据年龄区间查询
     *
     * @param min 最小值
     * @param max 最大值
     * @return 满足条件的用户列表
     */
    List<Person> findByAgeBetween(Integer min, Integer max);
}

6.5 添加文档

1.添加文档

     /**
     * 测试新增
     */
    @Test
    public void save() {
        Person person = new Person(1L, "刘备", "蜀国", 18, DateUtil.parse("1990-01-02 03:04:05"), "刘备（161年－223年6月10日），即汉昭烈帝（221年－223年在位），又称先主，字玄德，东汉末年幽州涿郡涿县（今河北省涿州市）人，西汉中山靖王刘胜之后，三国时期蜀汉开国皇帝、政治家。\n刘备少年时拜卢植为师；早年颠沛流离，备尝艰辛，投靠过多个诸侯，曾参与镇压黄巾起义。先后率军救援北海相孔融、徐州牧陶谦等。陶谦病亡后，将徐州让与刘备。赤壁之战时，刘备与孙权联盟击败曹操，趁势夺取荆州。而后进取益州。于章武元年（221年）在成都称帝，国号汉，史称蜀或蜀汉。《三国志》评刘备的机权干略不及曹操，但其弘毅宽厚，知人待士，百折不挠，终成帝业。刘备也称自己做事“每与操反，事乃成尔”。\n章武三年（223年），刘备病逝于白帝城，终年六十三岁，谥号昭烈皇帝，庙号烈祖，葬惠陵。后世有众多文艺作品以其为主角，在成都武侯祠有昭烈庙为纪念。");
        Person save = repo.save(person);
        log.info("【save】= {}", save);
    }

6.6 修改、查询、删除文档

修改文档：添加文档时，如果id存在则修改，id不存在则添加

/**
 * 修改文档：添加文档时，如果id存在则修改，id不存在则添加
 */
 @Test
    public void update() {
        repo.findById(1L).ifPresent(person -> {
            person.setRemark(person.getRemark() + "\n更新更新更新更新更新");
            Person save = repo.save(person);
            log.info("【save】= {}", save);
        });
    }

根据id查询文档

/**
 * 根据id查询文档
 */
    @Test
    public void findById(){
        Person person = repo.findById(1L).get();
        System.out.println(person);
    }

根据id删除文档

/**
 * 根据id删除文档
 */
  @Test
    public void deleteById(){
        repo.deleteById(1L);
    }

6.7 ElasticSearch批量操作

查询所有

JavaAPI操作

//查询所有
    @Test
    public void findAll(){
        Iterable<Person> persons = repo.findAll();
        for (Person person : persons) {
            System.out.println(person);
        }
    }

批量新增

JavaAPI操作

    @Test
    public void saveList() {
        List<Person> personList = Lists.newArrayList();
        personList.add(new Person(2L, "曹操", "魏国", 20, DateUtil.parse("1988-01-02 03:04:05"), "曹操（155年－220年3月15日），字孟德，一名吉利，小字阿瞒，沛国谯县（今安徽亳州）人。东汉末年杰出的政治家、军事家、文学家、书法家，三国中曹魏政权的奠基人。\n曹操曾担任东汉丞相，后加封魏王，奠定了曹魏立国的基础。去世后谥号为武王。其子曹丕称帝后，追尊为武皇帝，庙号太祖。\n东汉末年，天下大乱，曹操以汉天子的名义征讨四方，对内消灭二袁、吕布、刘表、马超、韩遂等割据势力，对外降服南匈奴、乌桓、鲜卑等，统一了中国北方，并实行一系列政策恢复经济生产和社会秩序，扩大屯田、兴修水利、奖励农桑、重视手工业、安置流亡人口、实行“租调制”，从而使中原社会渐趋稳定、经济出现转机。黄河流域在曹操统治下，政治渐见清明，经济逐步恢复，阶级压迫稍有减轻，社会风气有所好转。曹操在汉朝的名义下所采取的一些措施具有积极作用。\n曹操军事上精通兵法，重贤爱才，为此不惜一切代价将看中的潜能分子收于麾下；生活上善诗歌，抒发自己的政治抱负，并反映汉末人民的苦难生活，气魄雄伟，慷慨悲凉；散文亦清峻整洁，开启并繁荣了建安文学，给后人留下了宝贵的精神财富，鲁迅评价其为“改造文章的祖师”。同时曹操也擅长书法，唐朝张怀瓘在《书断》将曹操的章草评为“妙品”。"));
        personList.add(new Person(3L, "孙权", "吴国", 19, DateUtil.parse("1989-01-02 03:04:05"), "孙权（182年－252年5月21日），字仲谋，吴郡富春（今浙江杭州富阳区）人。三国时代孙吴的建立者（229年－252年在位）。\n孙权的父亲孙坚和兄长孙策，在东汉末年群雄割据中打下了江东基业。建安五年（200年），孙策遇刺身亡，孙权继之掌事，成为一方诸侯。建安十三年（208年），与刘备建立孙刘联盟，并于赤壁之战中击败曹操，奠定三国鼎立的基础。建安二十四年（219年），孙权派吕蒙成功袭取刘备的荆州，使领土面积大大增加。\n黄武元年（222年），孙权被魏文帝曹丕册封为吴王，建立吴国。同年，在夷陵之战中大败刘备。黄龙元年（229年），在武昌正式称帝，国号吴，不久后迁都建业。孙权称帝后，设置农官，实行屯田，设置郡县，并继续剿抚山越，促进了江南经济的发展。在此基础上，他又多次派人出海。黄龙二年（230年），孙权派卫温、诸葛直抵达夷州。\n孙权晚年在继承人问题上反复无常，引致群下党争，朝局不稳。太元元年（252年）病逝，享年七十一岁，在位二十四年，谥号大皇帝，庙号太祖，葬于蒋陵。\n孙权亦善书，唐代张怀瓘在《书估》中将其书法列为第三等。"));
        personList.add(new Person(4L, "诸葛亮", "蜀国", 16, DateUtil.parse("1992-01-02 03:04:05"), "诸葛亮（181年-234年10月8日），字孔明，号卧龙，徐州琅琊阳都（今山东临沂市沂南县）人，三国时期蜀国丞相，杰出的政治家、军事家、外交家、文学家、书法家、发明家。\n早年随叔父诸葛玄到荆州，诸葛玄死后，诸葛亮就在襄阳隆中隐居。后刘备三顾茅庐请出诸葛亮，联孙抗曹，于赤壁之战大败曹军。形成三国鼎足之势，又夺占荆州。建安十六年（211年），攻取益州。继又击败曹军，夺得汉中。蜀章武元年（221年），刘备在成都建立蜀汉政权，诸葛亮被任命为丞相，主持朝政。蜀后主刘禅继位，诸葛亮被封为武乡侯，领益州牧。勤勉谨慎，大小政事必亲自处理，赏罚严明；与东吴联盟，改善和西南各族的关系；实行屯田政策，加强战备。前后六次北伐中原，多以粮尽无功。终因积劳成疾，于蜀建兴十二年（234年）病逝于五丈原（今陕西宝鸡岐山境内），享年54岁。刘禅追封其为忠武侯，后世常以武侯尊称诸葛亮。东晋政权因其军事才能特追封他为武兴王。\n诸葛亮散文代表作有《出师表》《诫子书》等。曾发明木牛流马、孔明灯等，并改造连弩，叫做诸葛连弩，可一弩十矢俱发。诸葛亮一生“鞠躬尽瘁、死而后已”，是中国传统文化中忠臣与智者的代表人物。"));
        Iterable<Person> people = repo.saveAll(personList);
        log.info("【people】= {}", people);
    }

批量删除

JavaAPI操作

@Test
public void deleteAll(){
  repo.deleteAll(repo.findAll());
}

6.8 termQuery-词条查询

term查询不会对查询条件进行分词

1）脚本操作

ElasticSearch两个数据类型

text：会分词，不支持聚合
keyword：不会分词，将全部内容作为一个词条，支持聚合

查询title：ES对text数据分词

GET contact/_search
{
  "query": {
    "term": {
      "name": {
        "value": "曹操"
      }
    }
  }
}

查询address：ES对keyword没有分词

GET contact/_search
{
  "query": {
    "term": {
      "country": {
        "value": "魏国"
      }
    }
  }
}

2）JavaAPI操作


    @Test
    public void advanceSelect() {
        // QueryBuilders 提供了很多静态方法，可以实现大部分查询条件的封装
        MatchQueryBuilder queryBuilder = QueryBuilders.termQuery("name", "sunquan");
        log.info("【queryBuilder】= {}", queryBuilder.toString());
        repo.search(queryBuilder).forEach(person -> log.info("【person】= {}", person));
    }

6.9 分页查询

@Autowired
private PersonDao personDao;

@Test
public void findByPageable(){
    //设置排序(排序方式，正序还是倒序，排序的 id)
    Sort sort = Sort.by(Sort.Direction.DESC,"id");
    int currentPage=0;//当前页，第一页从 0 开始， 1 表示第二页
    int pageSize = 5;//每页显示多少条
    //设置查询分页
    PageRequest pageRequest = PageRequest.of(currentPage, pageSize,sort);
    //分页查询
    Page<Person> personPage = repo.findAll(pageRequest);
    for (Person person : personPage.getContent()) {
        System.out.println(person);
    }
}

6.10termQuery加分页

  @Test
    public void customAdvanceSelect() {
        // 构造查询条件
        NativeSearchQueryBuilder queryBuilder = new NativeSearchQueryBuilder();
        // 添加基本的分词条件
        queryBuilder.withQuery(QueryBuilders.termQuery("remark", "donghan"));
        // 排序条件
        queryBuilder.withSort(SortBuilders.fieldSort("age").order(SortOrder.DESC));
        // 分页条件
        queryBuilder.withPageable(PageRequest.of(0, 2));
        Page<Person> people = repo.search(queryBuilder.build());
        log.info("【people】总条数 = {}", people.getTotalElements());
        log.info("【people】总页数 = {}", people.getTotalPages());
        people.forEach(person -> log.info("【person】= {}，年龄 = {}", person.getName(), person.getAge()));
    }

6.11 matchQuery-分词查询

会对查询条件进行分词。
然后将分词后的查询条件和词条进行等值匹配
默认取并集（OR）

1）脚本操作

# match查询
GET contact/_search
{
  "query": {
    "match": {
      "name": "曹操"
    }
  },
  "size": 500
}

2）JavaAPI操作

  @Test
    public void advanceSelect() {
        // QueryBuilders 提供了很多静态方法，可以实现大部分查询条件的封装
        MatchQueryBuilder queryBuilder = QueryBuilders.matchQuery("name", "曹操");
        log.info("【queryBuilder】= {}", queryBuilder.toString());
        repo.search(queryBuilder).forEach(person -> log.info("【person】= {}", person));
    }

总结：

term query：对查询条件不分词查询
match query：对查询条件分词查询

6.12 模糊查询

1）脚本操作

1. wildcard查询

wildcard查询：会对查询条件进行分词。还可以使用通配符 ?（任意单个字符）和 * （0个或多个字符）

"*华*"  包含华字的
"华*"   华字后边多个字符
"华?"  华字后边多个字符
"*华"或"?华" 会引发全表（全索引）扫描 注意效率问题

# wildcard 查询。查询条件分词，模糊查询
GET contact/_search
{
  "query": {
    "wildcard": {
      "name": {
        "value": "孙*"
      }
    }
  }
}

2. 正则查询

\W：匹配包括下划线的任何单词字符，等价于 [A-Z a-z 0-9_]   开头的反斜杠是转义符

+号多次出现

(.)*为任意字符
正则查询取决于正则表达式的效率

GET contact/_search
{
  "query": {
    "regexp": {
      "name": "\\w+(.)*"
    }
  }
}

3. 前缀查询

对keyword类型支持比较好

# 前缀查询 对keyword类型支持比较好
GET contact/_search
{
  "query": {
    "prefix": {
      "name": {
        "value": "张"
      }
    }
  }
}

2）JavaAPI操作

//模糊查询
WildcardQueryBuilder query = QueryBuilders.wildcardQuery("name", "孙");
//正则查询
RegexpQueryBuilder query = QueryBuilders.regexpQuery("name", "\\w+(.)*");
//前缀查询
PrefixQueryBuilder query = QueryBuilders.prefixQuery("name", "孙");

6.13 范围&排序查询

1）脚本操作

# 范围查询

GET contact/_search
{
  "query": {
    "range": {
      "age": {
        "gte": 18,
        "lte": 19
      }
    }
  },
  "sort": [
    {
      "price": {
        "order": "desc"
      }
    }
  ]
}

2）JavaAPI操作

 /**
     * 测试普通查询，按生日倒序
     */
    @Test
    public void select() {
        repo.findAll(Sort.by(Sort.Direction.DESC, "birthday"))
                .forEach(person -> log.info("{} 生日: {}", person.getName(), DateUtil.formatDateTime(person.getBirthday())));
    }
   /**
     * 自定义查询，根据年龄范围查询
     */
    @Test
    public void customSelectRangeOfAge() {
        repo.findByAgeBetween(18, 19).forEach(person -> log.info("{} 年龄: {}", person.getName(), person.getAge()));
    }

6.14 queryString-查询

queryString：在多个字段中进行查询

会对查询条件进行分词。
然后将分词后的查询条件和词条进行等值匹配
默认取并集（OR）
可以指定多个查询字段

1）脚本操作

query_string：识别query中的连接符（or 、and）

# queryString

GET contact/_search
{
  "query": {
    "query_string": {
      "fields": ["name","country"], 
      "query": "张三 AND 中国"	# 字段中要同时包含张三和中国
    }
  }
}

simple_query_string：不识别query中的连接符（or 、and），查询时会将 “华为”、“and”、“手机”分别进行查询

GET contact/_search
{
  "query": {
    "simple_query_string": {
      "fields": ["name","country"], 
      "query": "张三 AND 中国"	
    }
  }
}

query_string：有default_operator连接符的脚本

GET contact/_search
{
  "query": {
    "query_string": {
      "fields": ["name","country"],
      "query": "张三",
      "default_operator": "AND"
    }
  }
}

2）JavaAPI操作

QueryStringQueryBuilder query = QueryBuilders.queryStringQuery("country")
    .field("name")
    .field("")
    .defaultOperator(Operator.AND);

注意

query中的or或and是在查询时是判断字段中是（or）或（and）包含查询条件

efault_operator的or和and是对结果进行并集（or）、交集（and）

6.15 布尔查询-脚本

boolQuery：对多个查询条件连接。

must（and）：条件必须成立
must_not（not）：条件必须不成立
should（or）：条件可以成立
filter：条件必须成立，性能比must高。不会计算得分

**得分：**值条件匹配度，匹配度越高，得分越高

1）脚本操作

# boolquery
#must和filter配合使用时，must 默认数组形式
GET contact/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "name": {
              "value": "张三"		# 查询名称为张三
            }
          }
        }
      ],
      "filter":[ 
        {
        "term": {
          "country": "中国"		# 国家在上海
        }
       },
       {
         "range":{				
          "age": {					# 年龄在10-50之间
            "gte": 10,
            "lte": 50
         }
         }
       }
      ]
    }
  }
}
#filter 单独使用   filter可以是单个条件，也可多个条件（数组形式）
GET contact/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "name": {
              "value": "张三"
            }
          }
        }
      ]
    }
  }
}

2）JavaAPI

布尔查询：boolQuery

询name名称为:张三
查询国家包含：中国
查询年龄在：10-50

must 、filter为连接方式

term、match为不同的查询方式

 @Test
    public void query() {
        //1.构建boolQuery
        BoolQueryBuilder query = QueryBuilders.boolQuery();

        //2.构建各个查询条件
        //2.1 查询name名称为:张三
        QueryBuilder termQuery = QueryBuilders.matchQuery("name","张三");
        query.must(termQuery);

        //2.2. 查询国家包含：中国
        QueryBuilder matchQuery = QueryBuilders.matchQuery("country","中国");
        query.filter(matchQuery);

        //2.3 查询年龄在：10-50
        QueryBuilder rangeQuery = QueryBuilders.rangeQuery("age");
        ((RangeQueryBuilder) rangeQuery).gte(10);
        ((RangeQueryBuilder) rangeQuery).lte(50);
        query.filter(rangeQuery);

        Iterable<Person> persons = repo.search(query);
        for (Person person : persons) {
            System.out.println(person);
        }
    }

6.16 高亮查询

高亮三要素：

高亮字段
添加前缀标签
添加后缀标签

默认前后缀：em

<em>张三</em>

1）脚本操作

GET goods/_search
{
  "query": {
    "match": {
      "name": "张三"
    }
  },
  "highlight": {
    "fields": {
      "name": {
        "pre_tags": "<font color='red'>",
        "post_tags": "</font>"
      }
    }
  }
}

2）JavaAPI操作

高亮查询操作步骤：

设置高亮
将高亮的字段数据，替换原有数据

   @Test
    public void testOps(){
        // 构建查询条件
        NativeSearchQueryBuilder queryBuilder = new NativeSearchQueryBuilder();
        // 添加基本分词查询
        String preTags = "<strong>";
        String postTags = "</strong>";
        HighlightBuilder highlightBuilder = new HighlightBuilder();
        highlightBuilder.preTags(preTags);//设置前缀
        highlightBuilder.postTags(postTags);//设置后缀
        highlightBuilder.field("name");//设置高亮字段
        String name = "张三";
        queryBuilder.withQuery(QueryBuilders.matchQuery("name", name));
        queryBuilder.withHighlightBuilder(highlightBuilder);

        NativeSearchQuery query = queryBuilder.build();

        SearchHits<Person> search = elasticsearchRestTemplate.search(query, 			         Person.class);

        long totalHits = search.getTotalHits();
        System.out.println("totalHits = " + totalHits);
        Iterator<SearchHit<Person>> iterator = search.stream().iterator();
        while (iterator.hasNext()) {
            SearchHit<Person> next = iterator.next();
            Person content = next.getContent();
            List<String> firstname = next.getHighlightField("name");
            for (String s : firstname) {
                System.out.println(s);
            }
        }

    }

6.17 聚合查询-脚本

指标聚合：相当于MySQL的聚合函数。max、min、avg、sum等
桶聚合：相当于MySQL的 group by 操作。（不要对text类型的数据进行分组，会失败）

1）脚本操作

# 聚合查询
# 指标聚合 聚合函数
GET contact/_search
{
  "query": {  
    "match": {
      "name": "张三"
    }
  },
  "aggs": {
    "max_age": {
      "max": {
        "field": "age"
      }
    }
  }
}

# 桶聚合  分组
GET contact/_search
{
  "query": {
    "match": {
      "name": "张三"
    }
  },
  "aggs": {
    "person_country": {
      "terms": {
        "field": "country",
        "size": 100
      }
    }
  }
}

2）JavaAPI


    /**
     * 测试聚合，测试平均年龄
     */
    @Test
    public void agg() {
        // 构造查询条件
        NativeSearchQueryBuilder queryBuilder = new NativeSearchQueryBuilder();
        // 不查询任何结果
        queryBuilder.withSourceFilter(new FetchSourceFilter(new String[]{""}, null));

        // 平均年龄
        queryBuilder.addAggregation(AggregationBuilders.avg("avg").field("age"));

        log.info("【queryBuilder】= {}", JSONUtil.toJsonStr(queryBuilder.build()));

        AggregatedPage<Person> people = (AggregatedPage<Person>) repo.search(queryBuilder.build());
        double avgAge = ((InternalAvg) people.getAggregation("avg")).getValue();
        log.info("【avgAge】= {}", avgAge);
    }

    /**
     * 测试高级聚合查询，每个国家的人有几个，每个国家的平均年龄是多少
     */
    @Test
    public void advanceAgg() {
        // 构造查询条件
        NativeSearchQueryBuilder queryBuilder = new NativeSearchQueryBuilder();
        // 不查询任何结果
        queryBuilder.withSourceFilter(new FetchSourceFilter(new String[]{""}, null));

        // 1. 添加一个新的聚合，聚合类型为terms，聚合名称为country，聚合字段为age
        queryBuilder.addAggregation(AggregationBuilders.terms("country").field("country")
                // 2. 在国家聚合桶内进行嵌套聚合，求平均年龄
                .subAggregation(AggregationBuilders.avg("avg").field("age")));

        log.info("【queryBuilder】= {}", JSONUtil.toJsonStr(queryBuilder.build()));

        // 3. 查询
        AggregatedPage<Person> people = (AggregatedPage<Person>) repo.search(queryBuilder.build());

        // 4. 解析
        // 4.1. 从结果中取出名为 country 的那个聚合，因为是利用String类型字段来进行的term聚合，所以结果要强转为StringTerm类型
        StringTerms country = (StringTerms) people.getAggregation("country");
        // 4.2. 获取桶
        List<StringTerms.Bucket> buckets = country.getBuckets();
        for (StringTerms.Bucket bucket : buckets) {
            // 4.3. 获取桶中的key，即国家名称  4.4. 获取桶中的文档数量
            log.info("{} 总共有 {} 人", bucket.getKeyAsString(), bucket.getDocCount());
            // 4.5. 获取子聚合结果：
            InternalAvg avg = (InternalAvg) bucket.getAggregations().asMap().get("avg");
            log.info("平均年龄：{}", avg);
        }
    }

}

7 重建索引

在项目开发过程中，如果需要更新索引，一般情况ES是不允许映射的已有字段进行修改（只能添加新的字段），此时可以通过新建索引再重新导入数据的方式进行。

步骤可以共3步：

1. 新建索引
2. 导入数据
3. 创建别名，保证业务代码不用变更

准备环境

# -------重建索引-----------

# 新建student_index_v1。索引名称必须全部小写

PUT student_index_v1
{
  "mappings": {
    "properties": {
      "birthday":{
        "type": "date"
      }
    }
  }
}
#查看 student_index_v1 结构
GET student_index_v1
#添加数据
PUT student_index_v1/_doc/1
{
  "birthday":"1999-11-11"
}
#查看数据
GET student_index_v1/_search

#添加数据
PUT student_index_v1/_doc/1
{
  "birthday":"1999年11月11日"
}

重建索引
将student_index_v1数据拷贝到 student_index_v2

# 业务变更了，需要改变birthday字段的类型为text

# 1. 创建新的索引 student_index_v2
# 2. 将student_index_v1 数据拷贝到 student_index_v2

# 创建新的索引 student_index_v2
PUT student_index_v2
{
  "mappings": {
    "properties": {
      "birthday":{
        "type": "text"
      }
    }
  }
}
# 将student_index_v1 数据拷贝到 student_index_v2
# _reindex 拷贝数据
POST _reindex
{
  "source": {
    "index": "student_index_v1"
  },
  "dest": {
    "index": "student_index_v2"
  }
}

GET student_index_v2/_search



PUT student_index_v2/_doc/2
{
  "birthday":"1999年11月11日"
}

创建索引库别名：

注意：DELETE student_index_v1 这一操作将删除student_index_v1索引库，并不是删除别名

# 思考： 现在java代码中操作es，还是使用的实student_index_v1老的索引名称。
# 1. 改代码（不推荐）
# 2. 索引别名（推荐）

# 步骤：
# 0. 先删除student_index_v1
# 1. 给student_index_v2起个别名 student_index_v1



# 先删除student_index_v1
DELETE student_index_v1 这一操作将删除student_index_v1索引库
# 索引库默认的别名与索引库同名，无法删除
# 给student_index_v1起个别名 student_index_v11
POST student_index_v2/_alias/student_index_v11
#测试删除命令
POST /_aliases
{
    "actions": [
        {"remove": {"index": "student_index_v1", "alias": "student_index_v11"}}
    ]
}

# 给student_index_v2起个别名 student_index_v1
POST student_index_v2/_alias/student_index_v1

#查询别名
GET goods/_alias/

GET student_index_v1/_search
GET student_index_v2/_search

index_v1/_doc/1
{
“birthday”:“1999-11-11”
}
#查看数据
GET student_index_v1/_search

#添加数据
PUT student_index_v1/_doc/1
{
“birthday”:“1999年11月11日”
}


1. 重建索引
2. 将student_index_v1数据拷贝到 student_index_v2

```json
# 业务变更了，需要改变birthday字段的类型为text

# 1. 创建新的索引 student_index_v2
# 2. 将student_index_v1 数据拷贝到 student_index_v2

# 创建新的索引 student_index_v2
PUT student_index_v2
{
  "mappings": {
    "properties": {
      "birthday":{
        "type": "text"
      }
    }
  }
}
# 将student_index_v1 数据拷贝到 student_index_v2
# _reindex 拷贝数据
POST _reindex
{
  "source": {
    "index": "student_index_v1"
  },
  "dest": {
    "index": "student_index_v2"
  }
}

GET student_index_v2/_search



PUT student_index_v2/_doc/2
{
  "birthday":"1999年11月11日"
}

创建索引库别名：

注意：DELETE student_index_v1 这一操作将删除student_index_v1索引库，并不是删除别名

# 思考： 现在java代码中操作es，还是使用的实student_index_v1老的索引名称。
# 1. 改代码（不推荐）
# 2. 索引别名（推荐）

# 步骤：
# 0. 先删除student_index_v1
# 1. 给student_index_v2起个别名 student_index_v1



# 先删除student_index_v1
DELETE student_index_v1 这一操作将删除student_index_v1索引库
# 索引库默认的别名与索引库同名，无法删除
# 给student_index_v1起个别名 student_index_v11
POST student_index_v2/_alias/student_index_v11
#测试删除命令
POST /_aliases
{
    "actions": [
        {"remove": {"index": "student_index_v1", "alias": "student_index_v11"}}
    ]
}

# 给student_index_v2起个别名 student_index_v1
POST student_index_v2/_alias/student_index_v1

#查询别名
GET goods/_alias/

GET student_index_v1/_search
GET student_index_v2/_search