初步了解Elasticsearch安装以及使用

最新推荐文章于 2024-07-30 07:50:05 发布

阳光宅男dh

最新推荐文章于 2024-07-30 07:50:05 发布

阅读量576

点赞数

分类专栏：进阶学习 SpringCloud 文章标签： elasticsearch 搜索引擎 big data

本文链接：https://blog.csdn.net/weixin_44953152/article/details/125241764

版权

本文详细介绍了Elasticsearch的安装、配置、运行过程，包括错误处理，以及Kibana的安装和使用。文章还涵盖了Elasticsearch的API使用，如REST风格API和客户端API，讲解了索引的创建、查询、聚合等操作。最后提到了SpringBoot整合Elasticsearch的基础步骤，适合初学者入门。

摘要由CSDN通过智能技术生成

0.学习目标

独立安装Elasticsearch
会使用Rest的API操作索引
会使用Rest的API查询数据
会使用Rest的API聚合数据
掌握Spring Data Elasticsearch使用

1.Elasticsearch介绍和安装

用户访问我们的首页，一般都会直接搜索来寻找自己想要购买的商品。

而商品的数量非常多，而且分类繁杂。如果能正确的显示出用户想要的商品，并进行合理的过滤，尽快促成交易，是搜索系统要研究的核心。

面对这样复杂的搜索业务和数据量，使用传统数据库搜索就显得力不从心，一般我们都会使用全文检索技术 Elasticsearch。

1.1.简介

1.1.1.Elastic

Elastic官网：https://www.elastic.co/cn/

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f4OJWnbc-1654994708705)(assets/1526464220142.png)

Elastic有一条完整的产品线：Elasticsearch、Kibana、Logstash等，前面说的三个就是大家常说的ELK技术栈。

在这里插入图片描述

1.1.2.Elasticsearch

Elasticsearch官网：https://www.elastic.co/cn/products/elasticsearch

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DPiB4Q41-1654994708706)(assets/1526464283575.png)]

如上所述，Elasticsearch具备以下特点：

分布式，无需人工搭建集群
Restful风格，一切API都遵循Rest原则，容易上手
近实时搜索，数据更新在Elasticsearch中几乎是完全同步的。

1.1.3 倒排索引

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HtlCxXJe-1654994708706)(elasticsearch.assets/image-20211224095734268.png)]

正排索引

通过key找到value，如通过id找到文章

查询内容时，需要逐条遍历，速度比较慢

id	文章
1	武汉这对美女
2	美女真多
3	武汉这边天气好热，美女真多
4	武汉美女都喜欢去哪里

倒排索引

通过value找到key

对内容进行分词，生成倒排索引

文章分词	倒排索引
武汉	1,3,4
美女	1,2,3,4
天气	3
喜欢	4
哪里	4
真多	2,3

搜索：武汉的美女真多

—>武汉、武汉的、美女、武汉的美女、真多、美女真多…

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wmppnEtS-1654994708707)(elasticsearch.assets/image-20211224100952029.png)]

1.2.安装和配置

为了模拟真实场景，我们将在linux下安装Elasticsearch。

1.2.1.新建用户

su root
useradd goods

设置密码：

passwd 123456

出于安全考虑，elasticsearch默认不允许以root账号运行。

1.2.2.jdk安装

1.2.3.上传安装包,并解压

我们将其他安装包上传到

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rTafFDHI-1654994708707)(assets/1526465700159.png)]

解压缩：

su goods
tar -zxvf elasticsearch-6.2.4.tar.gz

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vLVvjUqi-1654994708708)(assets/1526465823442.png)]

我们把目录重命名：

mv elasticsearch-6.2.4/ elasticsearch

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kCm4rER5-1654994708709)(assets/1526466797274.png)]

进入，查看目录结构：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PSPrSHrJ-1654994708709)(assets/1526465896725.png)]

1.2.4.修改配置

我们进入config目录：cd config

需要修改的配置文件有两个：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kHnE1k43-1654994708710)(assets/1526465991472.png)]

修改jvm配置

Elasticsearch基于Lucene的，而Lucene底层是java实现，因此我们需要配置jvm参数

vi jvm.options

默认配置如下：

-Xms1g
-Xmx1g

内存占用太多了，我们调小一些：

-Xms512m
-Xmx512m

修改elasticsearch.yml

vi elasticsearch.yml

修改数据和日志目录：

path.data: /usr/local/elasticsearch/data # 数据目录位置
path.log: /usr/local/elasticsearch/logs # 日志目录位置

修改绑定的ip：

network.host: 0.0.0.0 # 绑定到0.0.0.0，允许任何ip来访问

默认只允许本机访问，修改为0.0.0.0后则可以远程访问

目前我们是做的单机安装，如果要做集群，只需要在这个配置文件中添加其它节点信息即可。

elasticsearch.yml的其它可配置信息：

属性名	说明
cluster.name	配置elasticsearch的集群名称，默认是elasticsearch。建议修改成一个有意义的名称。
node.name	节点名，es会默认随机指定一个名字，建议指定一个有意义的名称，方便管理
path.conf	设置配置文件的存储路径，tar或zip包安装默认在es根目录下的config文件夹，rpm安装默认在/etc/ elasticsearch
path.data	设置索引数据的存储路径，默认是es根目录下的data文件夹，可以设置多个存储路径，用逗号隔开
path.logs	设置日志文件的存储路径，默认是es根目录下的logs文件夹
path.plugins	设置插件的存放路径，默认是es根目录下的plugins文件夹
bootstrap.memory_lock	设置为true可以锁住ES使用的内存，避免内存进行swap
network.host	设置bind_host和publish_host，设置为0.0.0.0允许外网访问
http.port	设置对外服务的http端口，默认为9200。
transport.tcp.port	集群结点之间通信端口
discovery.zen.ping.timeout	设置ES自动发现节点连接超时的时间，默认为3秒，如果网络延迟高可设置大些
discovery.zen.minimum_master_nodes	主结点数量的最少值 ,此值的公式为：(master_eligible_nodes / 2) + 1 ，比如：有3个符合要求的主结点，那么这里要设置为

1.2.5.创建data和logs目录

刚才我们修改配置，把data和logs目录修改指向了elasticsearch的安装目录。但是这两个目录并不存在，因此我们需要创建出来：

进入Elasticsearch的根目录，然后创建：

cd /usr/local/elasticsearch
mkdir data

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3xCgQanG-1654994708710)(assets/1526467246550.png)]

1.3.运行

进入elasticsearch/bin目录，可以看到下面的执行文件：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-14ga2kBL-1654994708711)(assets/1526467324965.png)]

然后输入命令：

./elasticsearch

发现报错了，启动失败：

1.3.1.错误1：文件权限不足

再次启动，又出错了：

[1]: max file descriptors [4096] for elasticsearch process likely too low, increase to at least [65536]

我们用的是goods用户，而不是root，所以文件权限不足。

首先用root用户登录。

然后修改配置文件:

vi /etc/security/limits.conf

添加下面的内容：

* soft nofile 65536

* hard nofile 131072

* soft nproc 4096

* hard nproc 4096

输入命令：

su goods
./elasticsearch

1.3.2.错误2：进程虚拟内存

[3]: max virtual memory areas vm.max_map_count [65530] likely too low, increase to at least [262144]

vm.max_map_count：限制一个进程可以拥有的VMA(虚拟内存区域)的数量，继续修改配置文件：

su root
vi /etc/sysctl.conf

添加下面内容：

vm.max_map_count=655360

然后执行命令：

sysctl -p

切换用户，启动：

su goods
./elasticsearch

1.3.3.重启终端窗口

所有错误修改完毕，一定要重启你的 CRT终端，否则配置无效。

1.3.4.启动

再次启动，终于成功了！

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2yo4pyIm-1654994708711)(assets/1526472722397.png)]

可以看到绑定了两个端口:

9300：集群节点间通讯接口
9200：客户端访问接口

我们在浏览器中访问：http://192.168.228.100:9200

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DS0WO3qJ-1654994708712)(assets/1526478245641.png)]

1.4.安装kibana

1.4.1.什么是Kibana？

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-coDqkSxU-1654994708712)(assets/1526481256534.png)]

Kibana是一个基于Node.js的Elasticsearch索引库数据统计工具，可以利用Elasticsearch的聚合功能，生成各种图表，如柱形图，线状图，饼图等。

而且还提供了操作Elasticsearch索引数据的控制台，并且提供了一定的API提示，非常有利于我们学习Elasticsearch的语法。

1.4.2.安装

解压缩

tar -zxvf kibana-6.2.4-linux-x86_64.tar.gz  -C /usr/local/

重命名

mv kibana-6.2.4-linux-x86_64/ kibana

1.4.3.配置运行

配置

进入安装目录下的config目录，修改kibana.yml文件：

修改elasticsearch服务器的地址：

server.host: "0.0.0.0"
elasticsearch.url: "http://192.168.228.100:9200"

运行

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3KTkTmpE-1654994708713)(assets/1526482642658.png)]

运行：
在这里插入图片描述

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uNqJqFHR-1654994708714)(assets/1526482862080.png)]

发现kibana的监听端口是5601

我们访问：http://192.168.228.100:5601

1.4.4.控制台

选择左侧的DevTools菜单，即可进入控制台页面：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QjaGbmCz-1654994708714)(assets/1526482926798.png)]

在页面右侧，我们就可以输入请求，访问Elasticsearch了。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TcdjcWZx-1654994708715)(assets/1526483200872.png)]

1.5.安装ik分词器

Lucene的IK分词器早在2012年已经没有维护了，现在我们要使用的是在其基础上维护升级的版本，并且开发为Elasticsearch的集成插件了，与Elasticsearch一起维护升级，版本也保持一致

1.5.1.安装

上传课前资料中的zip包，解压到Elasticsearch目录的plugins目录中：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CCiyuATQ-1654994708716)(assets/1526482432181.png)]

使用unzip命令解压：

su root
yum install -y unzip
unzip elasticsearch-analysis-ik-6.2.4.zip
su goods

得到一个名为elasticsearch的目录：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-q60gwP5T-1654994708716)(assets/1526482469109.png)]

将其改名为ik-analyzer

 mv elasticsearch ik-analyzer

移动到elasticsearch安装目录

 mv ik-analyzer /usr/local/elasticsearch/plugins

然后重启elasticsearch：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gcfs4Swg-1654994708717)(assets/1526523386610.png)]

1.5.2.测试

在kibana控制台输入下面的请求：

POST _analyze
{
  "analyzer": "ik_max_word",
  "text":     "我是中国人"
}

运行得到结果：

{
  "tokens": [
    {
      "token": "我",
      "start_offset": 0,
      "end_offset": 1,
      "type": "CN_CHAR",
      "position": 0
    },
    {
      "token": "是",
      "start_offset": 1,
      "end_offset": 2,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "中国人",
      "start_offset": 2,
      "end_offset": 5,
      "type": "CN_WORD",
      "position": 2
    }
  ]
}

1.7.API

Elasticsearch提供了Rest风格的API，即http请求接口，而且也提供了各种语言的客户端API

1.7.1.Rest风格API

文档地址：https://www.elastic.co/guide/en/elasticsearch/reference/current/getting-started.html
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nNNPosjv-1654994708718)(assets/1526518624942.png)]

1.7.2.客户端API

Elasticsearch支持的客户端非常多：https://www.elastic.co/guide/en/elasticsearch/client/index.html

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qunzRH1R-1654994708719)(assets/1526518662013.png)]

点击Java Rest Client后，你会发现又有两个：
在这里插入图片描述

Low Level Rest Client是低级别封装，提供一些基础功能，但更灵活

High Level Rest Client，是在Low Level Rest Client基础上进行的高级别封装，功能更丰富和完善，而且API会变的简单

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3zuEbF0O-1654994708719)(assets/1526518875072.png)]

1.7.3.如何学习

建议先学习Rest风格API，了解发起请求的底层实现，请求体格式等。

2.操作索引

2.1.基本概念

Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与MySQL类似的。

对比关系：

索引（indices）------------------Databases 数据库

类型（type）----------------------Table 数据表

文档（Document）-------------Row 行

字段（Field）---------------------Columns 列

详细说明：

概念	说明
索引库（indices)	indices是index的复数，代表许多的索引，
类型（type）	类型是模拟mysql中的table概念，一个索引库下可以有不同类型的索引，比如商品索引，订单索引，其数据格式不同。不过这会导致索引库混乱，因此未来版本中会移除这个概念
文档（document）	存入索引库原始的数据。比如每一条商品信息，就是一个文档
字段（field）	文档中的属性
映射配置（mappings）	字段的数据类型、属性、是否索引、是否存储等特性

是不是与Lucene和solr中的概念类似。

另外，在SolrCloud中，有一些集群相关的概念，在Elasticsearch也有类似的：

索引集（Indices，index的复数）：逻辑上的完整索引
分片（shard）：数据拆分后的各个部分
副本（replica）：每个分片的复制

要注意的是：Elasticsearch本身就是分布式的，因此即便你只有一个节点，Elasticsearch默认也会对你的数据进行分片和副本操作，当你向集群添加新数据时，数据也会在新加入的节点中进行平衡。

2.2.创建索引

2.2.1.语法

Elasticsearch采用Rest风格API，因此其API就是一次http请求，你可以用任何工具发起http请求

创建索引的请求格式：

请求方式：PUT
请求路径：/索引库名

请求参数：json格式：

{
     
    "settings": {
     
        "number_of_shards": 3,
        "number_of_replicas": 2
      }
}

settings：索引库的设置
- number_of_shards：分片数量
- number_of_replicas：副本数量

2.2.2.测试

我们先用Postman来试试

http://192.168.228.100:9200/school

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9hgZ7SMh-1654994708720)(assets/1526519492860.png)]

响应：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sSSUkMRH-1654994708720)(assets/1526519527347.png)]

可以看到索引创建成功了。

2.2.3.使用kibana创建

kibana的控制台，可以对http请求进行简化，示例：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L3xRUVy5-1654994708721)(assets/1526519787118.png)]

PUT goods
{
    "settings": {
        "number_of_shards": 3,
        "number_of_replicas": 2
      }
}

相当于是省去了elasticsearch的服务器地址

2.3.查看索引设置

语法

Get请求可以帮我们查看索引信息，格式：

GET /索引库名

GET /goods

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g6oNin2D-1654994708721)(assets/1526520159937.png)]

或者，我们可以使用*来查询所有索引库配置：

GET *

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DvzvUT5O-1654994708722)(assets/1526520202284.png)]

2.4.删除索引

删除索引使用DELETE请求

语法

DELETE /索引库名

示例

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wKnKVzZw-1654994708722)(assets/1526520267195.png)]

DELETE /goods

再次查看goods：

GET /goods

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uzU4wSCD-1654994708723)(assets/1526520309064.png)]

当然，我们也可以用HEAD请求，查看索引是否存在：

HEAD /goods

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aeDcwFPi-1654994708723)(assets/1526520441966.png)]

2.5.映射配置

索引有了，接下来肯定是添加数据。不过数据存储到索引库中，必须指定一些相关属性，在学习Lucene中我们都见到过，包括到不限于：

字段的数据类型
是否要存储
是否要索引
是否分词
分词器是什么

只有配置清楚，Elasticsearch才会帮我们进行索引库的创建（不一定）

2.5.1.创建映射字段

语法

请求方式依然是PUT

PUT /索引库名/_mapping/类型名称
{
  "properties": {
    "字段名": {
      "type": "类型",
      "index": true，
      "store": true，
      "analyzer": "分词器"
    }
  }
}

类型名称：就是前面将的type的概念，类似于数据库中的不同表
字段名：任意填写，可以指定许多属性，例如：
- type：类型，可以是text、long、short、date、integer、object等
- index：是否索引，默认为true
- store：是否存储，默认为false
- analyzer：分词器，这里的ik_smart即使用ik分词器

示例

新建索引，发起请求：

PUT goods
{
    "settings": {
        "number_of_shards": 3,
        "number_of_replicas": 2
      }
}

PUT /goods/_mapping
{
   
  "properties": {
   
    "title": {
   
      "type": "text",
      "analyzer": "ik_max_word"

    },
    "images": {
   
      "type": "keyword",
      "index": "false"
    },
    "price": {
   
      "type": "float"
    }
  }
}

响应结果：

{
  "acknowledged": true
}

2.5.2.查看映射关系

语法：

GET /索引库名/_mapping

示例：

GET /goods/_mapping

响应：

{
   
  "goods": {
   
    "mappings": {
   
      "goods": {
   
        "properties": {
   
          "images": {
   
            "type": "keyword",
            "index": false
          },
          "price": {
   
            "type": "float"
          },
          "title": {
   
            "type": "text",
            "analyzer": "ik_max_word"
          }
        }
      }
    }
  }
}

2.5.3.字段属性详解

1）type

Elasticsearch中支持的数据类型非常丰富：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rSwk5j1o-1654994708724)(assets/1526523877042.png)]

我们说几个关键的：

String类型，又分两种：
- text：可分词，不可参与聚合
- keyword：不可分词，数据会作为完整字段进行匹配，可以参与聚合
Numerical：数值类型，分两类
- 基本数据类型：long、interger、short、byte、double、float、half_float
- 浮点数的高精度类型：scaled_float
  - 需要指定一个精度因子，比如10或100。elasticsearch会把真实值乘以这个因子后存储，取出时再还原。
Date：日期类型

elasticsearch可以对日期格式化为字符串存储，但是建议我们存储为毫秒值，存储为long，节省空间。

2）index

index影响字段的索引情况。

true：字段会被索引，则可以用来进行搜索。默认值就是true
false：字段不会被索引，不能用来搜索

index的默认值就是true，也就是说你不进行任何配置，所有字段都会被索引。

但是有些字段是我们不希望被索引的，比如商品的图片信息，就需要手动设置index为false。

3）store

是否将数据进行额外存储。

在学习lucene和solr时，我们知道如果一个字段的store设置为false，那么在文档列表中就不会有这个字段的值，用户的搜索结果中不会显示出来。

但是在Elasticsearch中，即便store设置为false，也可以搜索到结果。

原因是Elasticsearch在创建文档索引时，会将文档中的原始数据备份，保存到一个叫做_source的属性中。而且我们可以通过过滤_source来选择哪些要显示，哪些不显示。

而如果设置store为true，就会在_source以外额外存储一份数据，多余，因此一般我们都会将store设置为false，事实上，store的默认值就是false。

4）boost

激励因子，这个与lucene中一样

其它的不再一一讲解，用的不多，大家参考官方文档：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sXuEHHiX-1654994708724)(assets/1526525159369.png)]

2.6.新增数据

2.6.1.随机生成id

通过POST请求，可以向一个已经存在的索引库中添加数据。

语法：

POST /索引库名/类型名
{
    "key":"value"
}

示例：

POST /goods/
{
   
    "title":"小米手机",
    "images":"http://image.leyou.com/12479121.jpg",
    "price":3999.00
}

响应：

{
   
  "_index": "goods",
  "_type": "goods",
  "_id": "frrB0HMBdIV-Aa_jAqCL",
  "_version": 1,
  "result": "created",
  "_shards": {
   
    "total": 3,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 0,
  "_primary_term": 1
}

通过kibana查看数据：

GET /goods/_search
{
   
    "query":{
   
        "match_all": {
   }
    }
}

响应：

{
   
  "took": 3,
  "timed_out": false,
  "_shards": {
   
    "total": 3,
    "successful": 3,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
   
    "total": 1,
    "max_score": 1,
    "hits": [
      {
   
        "_index": "goods",
        "_type": "goods",
        "_id": "frrB0HMBdIV-Aa_jAqCL",
        "_score": 1,
        "_source": {
   
          "title": "小米手机",
          "images": "http://image.leyou.com/12479121.jpg",
          "price": 3999
        }
      }
    ]
  }
}

_source：源文档信息，所有的数据都在里面。
_id：这条文档的唯一标示，与文档自己的id字段没有关联

2.6.2.自定义id

如果我们想要自己新增的时候指定id，可以这么做：

POST /索引库名/类型/id值
{
    ...
}

示例：

POST /goods/_doc/2
{
   
    "title":"大米手机"

最低0.47元/天解锁文章

阳光宅男dh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录