ElasticSearch

最新推荐文章于 2024-08-18 22:05:18 发布

new 沙()

最新推荐文章于 2024-08-18 22:05:18 发布

阅读量396

点赞数

分类专栏：脑图文章标签： java

本文链接：https://blog.csdn.net/weixin_43735007/article/details/104694005

版权

ElasticSearch

1.什么是Restful

定义: 当一个应用的架构遵循rest 设计原则|设计规范|设计风格那么这个架构就是restful架构

rest: rest是一种设计原则 | 设计风格

官方定义:

REST : 表现层状态转化(Representational State Transfer)，如果一个架构符合REST原则，就称它为 RESTful 架构风格。

资源: 所谓"资源"，就是网络上的一个实体，或者说是网络上的一个具体信息

表现层: 我们把"资源"具体呈现出来的形式，叫做它的"表现层"(Representation)。

状态转化(State Transfer): 如果客户端想要操作服务器，必须通过某种手段，让服务器端发生"状态转化"(State Transfer)。而这种转化是建立在表现层之上的，所以就是"表现层状态转化"。

REST原则就是指一个URL代表一个唯一资源，并且通过HTTP协议里面四个动词:GET、POST、PUT、DELETE对应四种服务器端的基本操作: GET用来获取资源，POST用来添加资源(也可以用于更新资源)，PUT用来更新资源，DELETE用来删除资源。

2.什么是全文检索

全文检索是计算机程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找，类似于通过字典的检索字表查字的过程。

全文检索（Full-Text Retrieval(检索)）以文本作为检索对象，找出含有指定词汇的文本.全面、准确和快速是衡量全文检索系统的关键指标。

关于全文检索:

1. 只处理文本。
2. 不处理语义。
3. 搜索时英文不区分大小写。
4. 结果列表有相关度排序。

3.什么是ElasticSearch

ElasticSearch 简称 ES ，是基于Apache Lucene构建的开源搜索引擎，是当前流行的企业级搜索引擎。Lucene本身就可以被认为迄今为止性能最好的一款开源搜索引擎工具包，但是lucene的API相对复杂，需要深厚的搜索理论。很难集成到实际的应用中去。同时ES是采用java语言编写，提供了简单易用的RestFul API，开发者可以使用其简单的RestFul API，开发相关的搜索功能，从而避免lucene的复杂性。

4.ES的诞生

多年前，一个叫做Shay Banon的刚结婚不久的失业开发者，由于妻子要去伦敦学习厨师，他便跟着也去了。在他找工作的过程中，为了给妻子构建一个食谱的搜索引擎，他开始构建一个早期版本的Lucene。

直接基于Lucene工作会比较困难，所以Shay开始抽象Lucene代码以便Java程序员可以在应用中添加搜索功能。他发布了他的第一个开源项目，叫做“Compass”。

后来Shay找到一份工作，这份工作处在高性能和内存数据网格的分布式环境中，因此高性能的、实时的、分布式的搜索引擎也是理所当然需要的。然后他决定重写Compass库使其成为一个独立的服务叫做Elasticsearch。

第一个公开版本出现在2010年2月，在那之后Elasticsearch已经成为Github上最受欢迎的项目之一，代码贡献者超过300人。一家主营Elasticsearch的公司就此成立，他们一边提供商业支持一边开发新功能，不过Elasticsearch将永远开源且对所有人可用。

Shay的妻子依旧等待着她的食谱搜索……

5.ES的应用场景

Es主要以轻量级JSON作为数据存储格式，这点与MongoDB有点类似，但它在读写性能上优于 MongoDB 。同时也支持地理位置查询，还方便地理位置和文本混合查询。以及在统计、日志类数据存储和分析、可视化这方面是引领者。

国外:
Wikipedia(维基百科)使用ES提供全文搜索并高亮关键字、StackOverflow(IT问答网站)结合全文搜索与地理位置查询、Github使用Elasticsearch检索1300亿行的代码。

国内:
百度(在云分析、网盟、预测、文库、钱包、风控等业务上都应用了ES，单集群每天导入30TB+数据，总共每天60TB+)、新浪、阿里巴巴、腾讯等公司均有对ES的使用。

使用比较广泛的平台ELK(ElasticSearch, Logstash, Kibana)。

6.ES的安装

安装前准备
	centos7 +
	java 8  +
	elastic 6.2.4

1. 在官方网站下载ES
	wget http://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.1.tar.gz
2. 安装JDK(必须JDK1.8+)
	rpm -ivh jdk-8u181-linux-x64.rpm
		/*注意:默认安装位置 /usr/java/jdk1.8.0_171-amd64*/
		
3. 配置环境变量
	vim /etc/profile
	在文件末尾加入:
		export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64
		export PATH=$PATH:$JAVA_HOME/bin
		
4. 重载系统配置
		source /etc/profile

5. 安装elasticsearche
		tar -zxvf elasticsearch-6.4.1.tar.gz
6. elasticsearche的目录结构
        bin                         可执行的二进制文件的目录
        config                    	配置文件的目录
        lib                         运行时依赖的库
        logs  modules       	    运行时日志文件
        plugins                   	es中提供的插件
7. 运行es服务
		在bin目录中执行   ./elasticsearch

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QjrZCo5q-1583471618209)(assets/2019-10-29_165254.png)]

注意: es 不能用root用户身份启动

8. 不能以root用户身份启动

    a.在linux系统中创建新的组
		groupadd es		
	b.创建新的用户myes并将myes用户放入es组中
		useradd myes -g es  
	c.修改es用户密码
		passwd myes
	d.将root用户解压的文件移动到es用户目录中
		mv /root/elasticsearch-6.2.4  /home/myes/

以myes用户身份登录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jdea3bk8-1583471618211)(assets/2019-10-29_172249.png)]

9. 用myes身份启动es 	
	./elasticsearch

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4p83tMWF-1583471618211)(assets/2019-10-29_172717.png)]

10. 以root身份改变elasticsearch-6.2.4的操作权限
	chown -R myes:es 当前es的安装目录(这里是:/home/es/elasticsearch)
	例如:
		chown -R myes:es /home/myes/elasticsearch-6.2.4/

myes身份启动,出现下图启动成功

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Sse3FJWK-1583471618212)(assets/2019-10-29_173441.png)]

11. 测试ES是否启动成功
	在命令终端中执行: curl http://localhost:9200 出现以下信息:
		{
          "name" : "3xOBeAF",
          "cluster_name" : "elasticsearch",
          "cluster_uuid" : "uCvaYwAvRlu-OyYNzRjm9A",
          "version" : {
            "number" : "6.2.4",
            "build_hash" : "ccec39f",
            "build_date" : "2018-04-12T20:37:28.497551Z",
            "build_snapshot" : false,
            "lucene_version" : "7.2.1",
            "minimum_wire_compatibility_version" : "5.6.0",
            "minimum_index_compatibility_version" : "5.0.0"
          },
          "tagline" : "You Know, for Search"
		}

开启远程访问

1. 修改配置文件
	vim config/elasticsearch.yml
	将原来network修改为以下配置:
		network.host: 0.0.0.0
2. 启动时错误解决方案

	a.重新启动es出现如下错误
		ERROR: bootstrap checks failed[1]: max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]
	  解决方案:
           # 切换到root用户修改
           	 vim /etc/security/limits.conf
           # 在最后面追加下面内容
                * soft    nofile          65536
                * hard    nofile          65536
                * soft    nproc           4096
                * hard    nproc           4096
           # 退出重新登录检测配置是否生效:
                ulimit -Hn
                ulimit -Sn
                ulimit -Hu
                ulimit -Su
	b. 重新启动出现如下错误
		ERROR: max number of threads [3802] for user [chenyn] is too low,increase to at least [4096]
	   解决方案:
	   		#进入limits.d目录下修改配置文件。
        		vim /etc/security/limits.d/20-nproc.conf 
             # 修改为 启动ES用户名 
             	soft nproc 4096
     c. 重新启动出现如下错误
     		ERROR: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]
       解决方案:
       		vim /etc/sysctl.conf
        	vm.max_map_count=655360
       执行以下命令生效：
       		sysctl -p
3. 外部浏览器访问即可
	aliyun访问使用公网IP
	http://es的主机名:9200 出现如下信息说明安装成功:
		{
   
          "name" : "3xOBeAF",
          "cluster_name" : "elasticsearch",
          "cluster_uuid" : "uCvaYwAvRlu-OyYNzRjm9A",
          "version" : {
   
            "number" : "6.2.4",
            "build_hash" : "ccec39f",
            "build_date" : "2018-04-12T20:37:28.497551Z",
            "build_snapshot" : false,
            "lucene_version" : "7.2.1",
            "minimum_wire_compatibility_version" : "5.6.0",
            "minimum_index_compatibility_version" : "5.0.0"
          },
          "tagline" : "You Know, for Search"
		}

7.ES中基本概念(重要)

7.1 接近实时(NRT)

Elasticsearch是一个接近实时的搜索平台。这意味着，从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒内)

7.2 索引(index)

一个索引就是一个拥有几分相似特征的文档的集合。比如说，你可以有一个客户数据的索引，另一个产品目录的索引，还有一个订单数据的索引。一个索引由一个名字来标识(必须全部是小写字母的)，并且当我们要对这个索引中的文档进行索引、搜索、更新和删除的时候，都要使用到这个名字。索引类似于关系型数据库中Database 的概念。在一个集群中，如果你想，可以定义任意多的索引

7.3 类型(type)

在一个索引中，你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区，其语义完全由你来定。通常，会为具有一组共同字段的文档定义一个类型。比如说，我们假设你运营一个博客平台并且将你所有的数据存储到一个索引中。在这个索引中，你可以为用户数据定义一个类型，为博客数据定义另一个类型，当然，也可以为评论数据定义另一个类型。类型类似于关系型数据库中Table的概念。

NOTE: 在5.x版本以前可以在一个索引中定义多个类型,6.x之后版本也可以使用,但是不推荐,在7.x版本中彻底移除一个索引中创建多个类型

7.4 映射(Mapping)

Mapping是ES中的一个很重要的内容，它类似于传统关系型数据中table的schema，用于定义一个索引(index)中的类型(type)的数据的结构。在ES中，我们可以手动创建type和mapping,也可以采用默认创建方式。在默认配置下，ES可以根据插入的数据自动地创建type及其mapping。 mapping中主要包括字段名、字段数据类型和字段索引类型

7.5 文档(document)

**一个文档是一个可被索引的基础信息单元，类似于表中的一条记录。**比如，你可以拥有某一个员工的文档,也可以拥有某个商品的一个文档。文档以采用了轻量级的数据交换格式JSON(Javascript Object Notation)来表示。

8.Kibana的安装

Kibana是一个针对Elasticsearch的开源分析及可视化平台，使用Kibana可以查询、查看并与存储在ES索引的数据进行交互操作，使用Kibana能执行高级的数据分析，并能以图表、表格和地图的形式查看数据

1. 下载Kibana
	https://www.elastic.co/downloads/kibana

2. 安装下载的kibana
	rpm -ivh kibana-6.2.4-x86_64.rpm

3. 查找kibana的安装位置
	find / -name kibana
    
4. 编辑kibana配置文件
	[root@localhost /]# vim /etc/kibana/kibana.yml

5. 修改如下配置
	server.host: "10.102.115.3"                		#ES服务器主机名
	elasticsearch.url: "http://10.102.115.3:9200"   #ES服务器地址

6. 启动kibana
	systemctl start kibana
	systemctl stop  kibana
	systemctl status kibana

7. 访问kibana的web界面  
	aliyun访问使用公网IP
	http://101.200.167.128:5601//   #kibana默认端口为5601 使用主机:端口直接访问即可

9. Kibana的基本操作

9.1 索引(Index)的基本操作

PUT /dangdang/       	  	创建索引
DELETE /dangdang			删除索引
DELETE /*					删除所有索引
GET /_cat/indices?v 		查看索引信息

9.2 类型(type)的基本操作

创建类型

1.创建/dangdang索引并创建(product)类型
PUT /dangdang             
{
   
  "mappings": {
   
    "product": {
   
      "properties": {
   
        	"title":    {
    "type": "text"  },
        	"name":     {
    "type": "text"  },
       		"age":      {
    "type": "integer" },
        	"created":  {
   
         		 "type":   "date",
          		 "format": "yyyy-MM-dd"
        		}
      		}
    	}
  	}
}
注意: 这种方式创建类型要求索引不能存在

Mapping Type: : text , keyword , date ,integer, long , double , boolean or ip

查看类型

GET /dangdang/_mapping/product # 语法:GET /索引名/_mapping/类型名
Get /dangdang/_mapping

9.3 文档(document)的基本操作

添加文档

PUT /ems/emp/1   #/索引/类型/id
{
   
  "name":"赵小六",
  "age":23,
  "bir":"2012-12-12",
  "content":"这是一个好一点的员工"
}

查询文档

GET /ems/emp/1  

返回结果:
{
   
  "_index": "ems",
  "_type": "emp",
  "_id": "1",
  "_version": 1,
  "found": true,
  "_source": {
   
    "name": "赵小六",
    "age": 23,
    "bir": "2012-12-12",
    "content": "这是一个好一点的员工"
  }
}

删除文档

DELETE /ems/emp/1

{
   
  "_index": "ems",
  "_type": "emp",
  "_id": "1",
  "_version": 2,
  "result": "deleted", #删除成功
  "_shards": {
   
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 1,
  "_primary_term": 1
}

更新文档

1.第一种方式  更新原有的数据
    POST /dangdang/emp/1/_update
    {
   
      "doc":{
   
        "name":"xiaohei"
      }
    }
2.第二种方式  添加新的数据
    POST /ems/emp/1/_update
    {
   
      "doc":{
   
        "name":"xiaohei",
        "age":11,
        "dpet":"你好部门"
      }
    }
3.第三种方式 在原来数据基础上更新
	POST /ems/emp/1/_update
    {
   
      "script": "ctx._source.age += 5"
    }

批量操作

1. 批量添加两个文档
    PUT /dangdang/emp/_bulk
 	{
   "index":{
   "_id":"1"}} 
  		{
   "name": "John Doe","age":23,"bir":"2012-12-12"}
	{
   "index":{
   "_id":"2"}}  
  		{
   "name": "Jane Doe","age":23,"bir":"2012-12-12"}
    
2. 更新文档同时删除文档
    POST /dangdang/emp/_bulk
		{
   "update":{
   "_id":"1"}}
			{
   "doc":{
   "name":"lisi"}}
		{
   "delete":{
   "_id":2}}
		{
   "index":{
   }}
			{
   "name":"xxx","age":23}
 
注意:批量时不会因为一个失败而全部失败,会继续执行后续操作,批量在返回时按照执行的状态开始返回

10.ES中高级搜索

10.1 检索方式

ES官方提供了两中检索方式:一种是通过 URL 参数进行搜索,另一种是通过 DSL(Domain Specified Language) 进行搜索。

官方更推荐使用第二种方式第二种方式是基于传递JSON作为请求体(request body)格式与ES进行交互，这种方式更强大，更简洁。

10.2 测试数据

1.删除索引
DELETE /ems

2.创建索引并指定类型
PUT /ems
{
   
  "mappings":{
   
    "emp":{
   
      "properties":{
   
        "name":{
   
          "type":"text"
        },
        "age":{
   
          "type":"integer"
        },
        "bir":{
   
          "type":"date"
        },
        "content":{
   
          "type":"text"
        },
        "address":{
   
          "type":"keyword"
        }
      }
    }
  }
}

3.插入测试数据
PUT /ems/emp/_bulk
  {
   "index":{
   }}
  {
   "name":"小黑","age":23,"bir":"2012-12-12","content":"为开发团队选择一款优秀的MVC框架是件难事儿，在众多可行的方案中决择需要很高的经验和水平","address":"北京"}
  {
   "index":{
   }}
  {
   "name":"王小黑","age":24,"bir":"2012-12-12","content":"Spring 框架是一个分层架构，由 7 个定义良好的模块组成。Spring 模块构建在核心容器之上，核心容器定义了创建、配置和管理 bean 的方式","address":"上海"}
  {
   "index":{
   }}
  {
   "name":"张小五","age":8,"bir":"2012-12-12","content":"Spring Cloud 作为Java 语言的微服务框架，它依赖于Spring Boot，有快速开发、持续交付和容易部署等特点。Spring Cloud 的组件非常多，涉及微服务的方方面面，井在开源社区Spring 和Netflix 、Pivotal 两大公司的推动下越来越完善","address":"无锡"}
  {
   "index":{
   }}
  {
   "name":"win7","age":9,"bir":"2012-12-12","content":"Spring的目标是致力于全方位的简化Java开发。 这势必引出更多的解释， Spring是如何简化Java开发的？","address":"南京"}
  {
   "index":{
   }}
  {
   "name":"梅超风","age":43,"bir":"2012-12-12","content":"Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API","address":"杭州"}
  {
   "index":{
   }}
  {
   "name":"张无忌","age":59,"bir":"2012-12-12","content":"ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口","address":"北京"}

10.3URL检索

GET /ems/emp/_search?q=*&sort=age:asc

_search 搜索的API
q=* 匹配所有文档
sort 以结果中的指定字段排序

10.4DSL检索

NOTE: 以下重点讲解DSL语法

GET /ems/emp/_search
{
   
    "query": {
   "match_all": {
   }},
    "sort": [
        {
   
            "age": {
   
                "order": "desc"
            }
        }
    ]
}

10.4 DSL高级检索(Query)

0. 查询所有(match_all)

match_all关键字: 返回索引中的全部文档

GET /ems/emp/_search
{
   
 	"query": {
    "match_all": {
   } }
}

1. 查询结果中返回指定条数(size)

GET /ems/emp/_search
{
   
 	"query": {
    "match_all": {
   } },
	"size": 1
}

2. 分页查询(from)

from 关键字: 用来指定起始返回位置，和size关键字连用可实现分页效果

GET /ems/emp/_search
{
   
      "query": {
   "match_all": {
   }},
      "sort": [
        {
   
          "age": {
   
            "order": "desc"
          }
        }
      ],
      "size": 2, 
      "from": 1
}

3. 查询结果中返回指定字段(_source)

_source 关键字: 是一个数组,在数组中用来指定展示那些字段

GET /ems/emp/_search
{
   
      "query": {
    "match_all": {
   } },
      "_source": ["account_number", "balance"]
}

4. 关键词查询(term)

term 关键字: 用来使用关键词查询

GET /ems/emp/_search
{
   
  "query": {
   
    "term": {
   
      "address": {
   
        "value": "北京"
      }
    }
  }
}

NOTE1: 通过使用term查询得知ES中默认使用分词器为标准分词器(StandardAnalyzer),标准分词器对于英文单词分词,对于中文单字分词。

NOTE2: 通过使用term查询得知,在ES的Mapping Type 中 keyword , date ,integer, long , double , boolean or ip 这些类型不分词，只有text类型分词。

5. 范围查询(range)

range 关键字: 用来指定查询指定范围内的文档

GET /ems/emp/_search
{
   
  "query": {
   
    "range": {
   
      "age": {
   
        "gte": 8,
        "lte": 30
      }
    }
  }
}

6. 前缀查询(prefix)

prefix 关键字: 用来检索含有指定前缀的关键词的相关文档

GET /ems/emp/_search
{
   
  "query": {
   
    "prefix": {
   
      "content": {
   
        "value": "redis"
      }
    }
  }
}

7. 通配符查询(wildcard)

wildcard 关键字: 通配符查询 ? 用来匹配一个任意字符 * 用来匹配多个任意字符

GET /ems/emp/_search
{
   
  "query": {
   
    "wildcard": {
   
      "content": {
   
        "value": "re*"
      }
    }
  }
}

GET ems/emp/_search
{
   
  "query": {
   
    "wildcard": {
   
      "content": {
   
        "value": "redi?"
      }
    }
  }
}

8. 多id查询(ids)

ids 关键字 : 值为数组类型,用来根据一组id获取多个对应的文档

GET  /ems/emp/_search
{
   
  "query": {
   
    "ids": {
   
      "values": ["lg5HwWkBxH7z6xax7W3_","lQ5HwWkBxH7z6xax7W3_"]
    }
  }
}

9. 模糊查询(fuzzy)

fuzzy 关键字: 用来模糊查询含有指定关键字的文档

GET /ems/emp/_search
{
   
  "query": {
   
    "fuzzy": {
   
      "content":"spring"
    }
  }
}

10. 布尔查询(bool)

bool 关键字: 用来组合多个条件实现复杂查询

must: 相当于&& 同时成立 (必须含有)

should: 相当于|| 成立一个就行 (有展示,没有不展示)

must_not: 相当于! 不能满足任何一个 (必须没有)

GET /ems/emp/_search
{
   
  "query": {
   
    "bool": {
   
      "must": [
        {
   
          "range": {
   
            "age": {
   
              "gte": 0,
              "lte": 30
            }
          }
        }
      ],
      "must_not": [
        {
   "wildcard": {
   
          "content": {
   
            "value": "redi?"
          }
        }}
      ]
    }
  },
  "sort": [
    {
   
      "age": {
   
        "order": "desc"
      }
    }
  ]
}

11. 高亮查询(highlight)

highlight 关键字: 可以让符合条件的文档中的关键词高亮

GET /ems/emp/_search
{
   
  "query": {
   
    "term": {
   
      "content": {
   
        "value": "redis"
      }
    }
  },
  "highlight": {
   
    "fields": {
   
      "*": {
   }
    }
  }
}

自定义高亮html标签: 可以在highlight中使用pre_tags和post_tags

GET /ems/emp/_search
{
   
  "query":{
   
    "term":{
   
      "content":"框架"
    }
  },
  "highlight": {
   
    "pre_tags": ["<span style='color:red'>"],
    "post_tags": ["</span>"],
    "fields": {
   
      "*":{
   }
    }
  }
}

多字段高亮使用require_field_match开启多个字段高亮

GET /ems/emp/_search
{
   
  "query":

最低0.47元/天解锁文章

new 沙()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch

ElasticSearch1.什么是Restful 定义: 当一个应用的架构遵循rest 设计原则|设计规范|设计风格那么这个架构就是restful架构 rest: rest是一种设计原则 | 设计风格官方定义: REST : 表现层状态转化(Representational State Transfer)，如果一个架构符合REST原则，就称它为 RESTful 架构风格。...
复制链接

扫一扫