elasticsearch技术1--介绍和基础操作

最新推荐文章于 2024-01-30 16:47:49 发布

xiaoleinb

最新推荐文章于 2024-01-30 16:47:49 发布

阅读量350

点赞数

分类专栏： elasticsearch

本文链接：https://blog.csdn.net/xiaoleinb/article/details/113916559

版权

elasticsearch 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一.elasticsearch简介

1.elasticsearch介绍

1.Elasticsearch 是一个实时的分布式搜索分析引擎，它能让你以一个之前从未有过的速度和规模，去探索你的数据。它被用作全文检索、结构化搜索、分析以及这三个功能的组合。

2.Elasticsearch是一个基于Apache Lucene™的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是，Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。

3.Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。

2.Elasticsearch的功能

（1）分布式搜索和分析引擎
（2）全文检索，结构化检索，数据分析
（3）对海量数据进行近实时的处理
分布式：ES自动可以将海量数据分散到多台服务器上存储和检索
海量数据的处理：分布式以后，就可以采用大量的服务器去存储和检索数据，自然而然就可以实现海量数据的处理了
跟分布式/海量数据相反的，lucene,单机应用，只能在单台服务器上使用，最多只能处理单台服务器可以处理的数据量。
近实时：在秒级别对数据进行搜索和分析

3.Elasticsearcg的适用场景

（1）维基百科，全文检索，高亮，搜索推荐
（2）新闻网站，用户日志+社交网络数据，分析
（3）Stack Overflow（国外的程序异常讨论论坛），全文检索，搜索相关问题和答案
（4）GitHub(开源代码管理)，搜索上亿行代码
（5）电商网站，检索商品
（6）日志数据分析，logstash采集日志，ES进行复杂的数据分析
（7）商品价格监控网站，用户设定某商品的价格阈值，当低于该阈值的时候，发视消息给用户
（8）BI系统，ES执行数据分析和挖掘，Kibana进行数据可视化
（9）国内，站内搜索(电商，招聘，门户)
（10）BI 系统，商业智能，分析用户消费趋势和用户群体的组成构成。

4.Elasticsearch的特点

（1）可以作为一个大型分布式集群（数百台服务器）技术，处理PB级数据，服务大公司，也可以运行在单机上，服务小公司
（2）Elasticsearch不是什么新技术，主要是将全文检索，数据分析以及分布式技术，合并在一起，才形成了独一无二的ES，lucene(全文检索)
（3）对用户而言，是开箱即用的，非常简单，作为中小型的应用，直接3分钟部署一下ES，就可以作为生产环境的系统来使用了，数据量不大，操作不是太复杂
（4）数据库的功能面对很多领域是不够的，优势：事务，各种联机事务型的操作，特殊的功能，比如全文检索，同义词处理，相关度排名，复杂数据分析，海量数据的近实时处理，Elasticsearch作为传统数据库的一个补充，提供了数据库所不能提供的很多功能。

5.数据格式

Elasticsearch 使用JavaScript Object Notation 或者JSON作为文档的序列化格式。JSON序列化被大多数编程语言所支持，并且已经成为 NoSQL领域的标准格式。它简单、简洁、易于阅读。

二.实验部署

官方文档
https://www.elastic.co/guide/en/elasticsearch/reference/current/install-elasticsearch.html

1.安装部署

1.1 安装方式及其比较

在这里插入图片描述

1.2 rpm安装

1.安装Java
yum install -y java-1.8.0-openjdk.x86_64
2.下载安装软件
mkdir /data/soft -p
cd /data/soft/
rz -E       
rpm -ivh elasticsearch-6.6.0.rpm
3.配置启动
systemctl daemon-reload
systemctl enable elasticsearch.service
systemctl start elasticsearch.service
4.检查是否安装成功（要隔一会才会启动起来）
netstat -lntup|grep 9200
tcp6       0      0 127.0.0.1:9200          :::*                    LISTEN      6440/java
tcp6       0      0 ::1:9200                :::*                    LISTEN      6440/java
curl 127.0.0.1:9200

2.重要配置文件

rpm -qc elasticsearch					#查看elasticsearch所有配置文件
/etc/elasticsearch/elasticsearch.yml    #配置文件
/etc/elasticsearch/jvm.options	        #jvm虚拟机配置文件
/etc/init.d/elasticsearch				#init启动文件
/etc/sysconfig/elasticsearch			#环境变量配置文件
/usr/lib/sysctl.d/elasticsearch.conf	#sysctl变量文件，修改最大描述符
/usr/lib/systemd/system/elasticsearch.service  #systemd启动文件
/var/lib/elasticsearch				    # 数据目录
/var/log/elasticsearch			        #日志目录
/var/run/elasticsearch			        #pid目录

3.elsticsrach配置文件

Elasticsearch 已经有了很好的默认值，特别是涉及到性能相关的配置或者选项,其它数据库可能需要调优，但总得来说，Elasticsearch不需要。如果你遇到了性能问题，解决方法通常是更好的数据布局或者更多的节点。

[root@m01 ~]#mkdir /data/elasticsearch
[root@m01 ~]#chown -R elasticsearch:elasticsearch /data/elasticsearch/
[root@m01 ~]# chmod a+x /data
[root@m01 ~]# chmod a+x /data/elasticsearch 
[root@m01 ~]# ll -d /data
drwxr-xr-x 5 root root 60 Jul 10 17:15 /data
[root@m01 ~]# ll -d /data/elasticsearch/
drwxr-xr-x 3 elasticsearch elasticsearch 19 Jul 10 18:57 /data/elasticsearch/
[root@m01 ~]# vim /etc/elasticsearch/elasticsearch.yml 
#cluster.name: dba5 		                        #集群名称
node.name: node-1		                            #节点名称
path.data: /data/elasticsearch                    	#数据目录
path.logs: /var/log/elasticsearch                	#日志目录
bootstrap.memory_lock: true	                        #锁定内存
network.host: 10.0.0.51		                        #绑定IP地址
http.port: 9200			                            #端口号

4.修改配置重新启动

1.根据实际情况调整内存：
查看内存：free –h
[root@m01 ~]#vim /etc/elasticsearch/jvm.options
#如果是1G的内存，需要修改一下这里的内存。改为512m
#如果是1G内存，则默认就可以了
-Xms1g     
-Xmx1g

内存限制：
1.不要超过32G
2.最大最小内存设置为一样
3.配置文件设置锁定内存
4.至少给服务器本身空余50%的内存

2.修改配置：
[root@m01 ~]#cd /etc/elasticsearch/
[root@m01 elasticsearch]#systemctl edit elasticsearch
# 增加如下参数
[Service]
LimitMEMLOCK=infinity

3.重新启动：
systemctl daemon-reload
systemctl restart elasticsearch
systemctl status elasticsearch

4.查看是否启动成功
[root@m01 ~]#  netstat -lntup|grep 9200
tcp6       0      0 10.0.0.51:9200          :::*                    LISTEN      8344/java

5.修改ES配置文件支持跨域

[root@m01 ~]# vim /etc/elasticsearch/elasticsearch.yml
http.cors.enabled: true 
http.cors.allow-origin: "*"
[root@m01 ~]# systemctl restart elasticsearch

6.安装es插件

打开谷歌浏览器
在这里插入图片描述

安装成功

网页访问
IP地址:9100

三.ES简单命令

1.创建索引

1.1 实验1

[root@m01 ~]# curl -XPUT 10.0.0.51:9200/vipinfo?pretty
{
“acknowledged” : true,
“shards_acknowledged” : true,
“index” : “vipinfo”
}
在这里插入图片描述

1.2 实验2

[root@m01 ~]# curl -XPUT '10.0.0.51:9200/vipinfo/user/1?pretty' -H 'Content-Type: application/json' -d'
{
    "first_name" : "John",
    "last_name": "Smith",
    "age" : 25,
    "about" : "I love to go rock climbing", "interests": [ "sports", "music" ]
}
'

在这里插入图片描述

1.3 实验3

实验准备：

想要满足下次写入语句时不用每次因为机子ip不一样而要修改对应的ip地址
[root@m01 ~]#  vim /etc/elasticsearch/elasticsearch.yml
network.host: 10.0.0.51,127.0.0.1（修改这一行）
[root@m01 ~]#systemctl restart elasticsearch

创建索引

[root@m01 ~]# curl -XPUT  'localhost:9200/vipinfo/user/2?pretty' -H 'Content-Type: application/json' -d' {
"first_name": "Jane",
"last_name" : "Smith",
"age" : 32,
"about" : "I like to collect rock albums", "interests": [ "music" ]
}'
[root@m01 ~]# curl -XPUT  'localhost:9200/vipinfo/user/3?pretty' -H 'Content-Type: application/json' -d' {
"first_name": "Douglas", "last_name" : "Fir",
"age" : 35,
"about": "I like to build cabinets", "interests": [ "forestry" ]
}'

在这里插入图片描述

1.4 实验4

插入数据时头先用自己指定的id，但发现性能有损耗，后面用随机id，解决了性能损耗的问题，但是会查不到对应的指标，所以增加了一个sid字段。
解决可以创建随机id且有sid可以查询的语句：
[root@m01 ~]# curl -XPOST '10.0.0.51:9200/userinfo/user/?pretty' -H 'Content-Type: application/json' -d' {
"sid" : 10,
"first_name": "John",
"last_name" : "Smith",
"age" : 32,
"about" : "I like to collect rock albums", "interests": [ "music" ]
}'

在这里插入图片描述

2.过滤查询数据

2.1 查询所有

[root@m01 ~]# curl -XGET localhost:9200/vipinfo/user/_search?pretty

2.2 条件查询

第1种方法：

[root@m01 ~]# curl -XGET 'localhost:9200/vipinfo/user/_search?q=last_name:Smith&pretty'

第2种方法：

[root@m01 ~]# curl -XGET 'localhost:9200/userinfo/user/_search?pretty' -H 'Content-Type: application/json' -d'
> {
>   "query" : {
>     "match" : {
>         "last_name" : "Smith"
>      }
>   }
> }
> '

在这里插入图片描述

2.3 过滤查询

[root@m01 ~]# curl -XGET 'localhost:9200/vipinfo/user/_search?pretty' -H 'Content-Type: application/json' -d'{ 
  "query" : { 
    "bool": { 
      "must": { 
        "match" : { 
          "last_name" : "smith" 
          } 
     }, 
     "filter": { 
        "range" : {"age" : { "gt" : 30 }  
          } 
        } 
      } 
    } 
 }'

在这里插入图片描述

3.删除数据

在这里插入图片描述

四.elasticseartch术语及概念

1.索引词
在elastiasearch中索引词（term）是一个能够被索引的精确值。foo,Foo,FOO几个单词是不同的索引词。索引词（term）是可以通过term查询进行准确的搜索。
2.文本(text)
文本是一段普通的非结构化文字。通常，文本会被分拆成一个个的索引词，存储在elasticsearch的索引库中。为了让文本能够进行搜索，文本字段需要事先进行分析了；当对文本中的关键词进行查询的时候，搜索引擎应该根据搜索条件搜索出原文本。
3.分析(analysis)
分析是将文本转换为索引词的过程，分析的结果依赖于分词器。比如：FOO BAR，Foo-Bar和foo bar这几个词有可能会被分析成相同的索引词foo和bar，这些索引词存储在Elasticsearch的索引库中。
4.集群(cluster)
集群由一个或多个节点组成，对外提供服务，对外提供索引和搜索功能。在所有节点，一个集群有一个唯一的名称默认为“elasticsearch”.此名称是很重要的，因为每个节点只能是集群的一部分，当该节点被设置为相同的集群名称时，就会自动加入集群。当需要有多个集群的时候，要确保每个集群的名称不能重复，，否则节点可能会加入到错误的集群。请注意，一个节点只能加入到一个集群。此外，你还可以拥有多个独立的集群，每个集群都有其不同的集群名称。
5.节点(node)
一个节点是一个逻辑上独立的服务,它是集群的一部分,可以存储数据,并参与集群的索引和搜索功能。就像集群一样,节点也有唯一的名字,在启动的时候分配。如果你不想要默认名称,你可以定义任何你想要的节点名.这个名字在理中很重要,在Elasticsearch集群通过节点名称进行管理和通信.一个节点可以被配置加入到一个特定的集群。默认情况下,每个节点会加人名为Elasticsearch 的集祥中,这意味着如果你在网热动多个节点,如果网络畅通,他们能彼此发现井自动加人名为Elasticsearch 的一个集群中,你可以拥有多个你想要的节点。当网络没有集祥运行的时候,只要启动一个节点,这个节点会默认生成一个新的集群,这个集群会有一个节点。
6.分片(shard)
分片是单个Lucene 实例,这是Elasticsearch管理的比较底层的功能。索引是指向主分片和副本分片的逻辑空间。 对于使用,只需要指定分片的数量,其他不需要做过多的事情。在开发使用的过程中,我们对应的对象都是索引,Elasticsearch 会自动管理集群中所有的分片,当发生故障的时候,Elasticsearch 会把分片移动到不同的节点或者添加新的节点。
一个索引可以存储很大的数据,这些空间可以超过一个节点的物理存储的限制。例如,十亿个文档占用磁盘空间为1TB。仅从单个节点搜索可能会很慢,还有一台物理机器也不一定能存储这么多的数据。为了解决这一问题,Elasticsearch将索引分解成多个分片。当你创建一个索引,你可以简单地定义你想要的分片数量。每个分片本身是一个全功能的、独立的单元,可以托管在集群中的任何节点。
7.主分片
每个文档都存储在一个分片中,当你存储一个文档的时候,系统会首先存储在主分片中,然后会复制到不同的副本中。默认情况下,一个索引有5个主分片。 你可以事先制定分片的数量,当分片一旦建立,则分片的数量不能修改。
8.副本分片
每一个分片有零个或多个副本。副本主要是主分片的复制,其中有两个目的:
- 增加高可用性:当主分片失败的时候,可以从副本分片中选择一个作为主分片。
- 提高性能:当查询的时候可以到主分片或者副本分片中进行查询。默认情況下,一个主分片配有一个副本,但副本的数量可以在后面动态地配置增加。副本分片必部署在不同的节点上,不能部署在和主分片相同的节点上。

分片主要有两个很重要的原因是:
- 允许水平分割扩展数据。
- 允许分配和井行操作(可能在多个节点上)从而提高性能和吞吐量。
这些很强大的功能对用户来说是透明的,你不需要做什么操作,系统会自动处理。
9.复制
复制是一个非常有用的功能,不然会有单点问题。 当网络中的某个节点出现问题的时
候,复制可以对故障进行转移,保证系统的高可用。因此,Elasticsearch 允许你创建一个或多个拷贝,你的索引分片就形成了所谓的副本或副本分片。
复制是重要的,主要的原因有:
- 它提供丁高可用性,当节点失败的时候不受影响。需要注意的是,一个复制的分片
不会存储在同一个节点中。
- 它允许你扩展搜索量,提高并发量,因为搜索可以在所有副本上并行执行。
每个索引可以拆分成多个分片。索引可以复制零个或者多个分片。一旦复制,每个索引就有了主分片和副本分片。分片的数量和副本的数量可以在创建索引时定义。 当创建索引后,你可以随时改变副本的数量,但你不能改变分片的数量。
默认情況下,每个索引分配5个分片和一个副本,这意味着你的集群节点至少要有两个节点,你将拥有5个主要的分片和5个副本分片共计10个分片.
每个Elasticsearch分片是一个Lucene 的索引。有文档存储数量限制,你可以在一个
单一的Lucene索引中存储的最大值为lucene-5843,极限是2147483519(=integer.max_value-128)个文档。你可以使用cat/shards API监控分片的大小。
10.索引
索引是具有相同结构的文档集合。例如,可以有一个客户信息的索引,包括一个产品目录的索引,一个订单数据的索引。 在系统上索引的名字全部小写,通过这个名字可以用来执行索引、搜索、更新和删除操作等。在单个集群中,可以定义多个你想要的索引。
11.类型
在索引中,可以定义一个或多个类型,类型是索引的逻辑分区。在一般情况下,一种类型被定义为具有一组公共字段的文档。例如,让我们假设你运行一个博客平台,并把所有的数据存储在一个索引中。在这个索引中,你可以定义一种类型为用户数据,一种类型为博客数据,另一种类型为评论数据。
12.文档
文档是存储在Elasticsearch中的一个JSON格式的字符串。它就像在关系数据库中表的
一行。每个存储在索引中的一个文档都有一个类型和一个ID,每个文档都是一个JSON对象,存储了零个或者多个字段,或者键值对。原始的JSON 文档假存储在一个叫作Sour的字段中。当搜索文档的时候默认返回的就是这个字段。
13.映射
映射像关系数据库中的表结构,每一个索引都有一个映射,它定义了索引中的每一个字段类型,以及一个索引范围内的设置。一个映射可以事先被定义,或者在第一次存储文档的时候自动识别。
14.字段
文档中包含零个或者多个字段,字段可以是一个简单的值(例如字符串、整数、日期),也可以是一个数组或对象的嵌套结构。字段类似于关系数据库中表的列。每个字段都对应一个字段类型,例如整数、字符串、对象等。字段还可以指定如何分析该字段的值。
15.主键
ID是一个文件的唯一标识,如果在存库的时候没有提供ID,系统会自动生成一个ID,文档的 index/type/id必须是唯一的。

xiaoleinb

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
elasticsearch技术1--介绍和基础操作

文章目录一.elasticsearch简介1.elasticsearch介绍2.Elasticsearch的功能3.Elasticsearcg的适用场景4.Elasticsearch的特点5.数据格式二.实验部署1.安装部署1.1 安装方式及其比较1.2 rpm安装2.重要配置文件3.elsticsrach配置文件4.修改配置重新启动5.修改ES配置文件支持跨域6.安装es插件三.ES简单命令1.创建索引1.1 实验11.2 实验21.3 实验31.4 实验42.过滤查询数据2.1 查询所有2.2 条件查询
复制链接

扫一扫