简介
全文搜索属于最常见的需求,开源的 Elasticsearch 是目前全文搜索引擎的首选。
它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它
Elastic 的底层是开源库 Lucene。但是,你没法直接用 Lucene,必须自己写代码去调用它的
接口。Elastic 是 Lucene 的封装,提供了 REST API 的操作接口,开箱即用。
官方文档:https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html
官方中文:https://www.elastic.co/guide/cn/elasticsearch/guide/current/foreword_id.html
基本概念
Index(索引)相当于MySql中的数据库
Type(类型) 相当于数据库中的表
官方已在7.X版本预计去除type,原因:elasticsearch是基于Lucene开发的搜索引擎,而ES中不同type下名称相同的filed最终在Lucene中的处理方式是一样的。
这会导致在两个不同类型下的两个文档会被认为是同一个filed映射,产生冲突,并降低效率
Document(文档)
相对于mysql表中的内容
倒排索引机制
es为什么查询效率高就是因为有这个机制,他会将我们存入的数据首先进行分词,建立一个倒排索引表,我们在查数据的时候会根据命中这张表的次数来决定他的相关性得分,相关性得分高的就越精准于我们查询的数据。
安装ES
笔者在这选择docker安装es
docker pull elasticsearch:版本号
docker pull kibana:版本号 //可视化检索数据
创建实例
提前创建好以下文件夹,作为我们docker中es的配置文件挂载
mkdir -p /mydata/elasticsearch/config
mkdir -p /mydata/elasticsearch/data
echo "http.host: 0.0.0.0" >> /mydata/elasticsearch/config/elasticsearch.yml
chmod -R 777 /mydata/elasticsearch/ 为es分配权限
创建容器
docker run --name elasticsearch -p 9200:9200 -p 9300:9300 \
-e "discovery.type=single-node" \
-e ES_JAVA_OPTS="-Xms64m -Xmx512m" \
-v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml \
-v /mydata/elasticsearch/data:/usr/share/elasticsearch/data \
-v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins \
-d elasticsearch:7.4.2
参数说明
-- name 为容器命名
-p 9200:9200 将容器的9200端口映射到主机的9200端口
-v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml \
将配置文件挂载到主机
#以上属于docker内容,请参照官方文档
注意:
-e ES_JAVA_OPTS="-Xms64m -Xmx256m" \ 测试环境下,设置 ES 的初始内存和最大内存,否则导
致过大启动不了
创建Kibana容器
docker run --name kibana -e ELASTICSEARCH_HOSTS=你的es的地址 -p 5601:5601 \
-d kibana:7.4.2
初步检索
访问你kibana的地址 选择dev tools
_cat
GET _cat/nodes 查看所有的节点信息
GET _cat/health 查看es健康状态
GET _cat/master 查看主节点信息
GET _cat/indices 查看所有索引
索引一个文档
PUT customer/external/1
{"name":"楚子航"}
解释
在customer索引下的external类型下保存的1号数据为{"name":"楚子航"}
{
"_index" : "customer", 索引为customer
"_type" : "external", 类型为external
"_id" : "1", id序号
"_version" : 1, 版本号 以前用来做乐观锁的后来用_seq_no _primary_term做乐观锁
"result" : "created", 说明这是一个新创建的数据
"_shards" : {
"total" : 2,
"successful" : 1,
"failed" : 0
},
"_seq_no" : 0,
"_primary_term" : 1
}
说明
PUT 和 POST 都可以,保存文档
POST 新增。如果不指定 id,会自动生成 id。指定 id 就会修改这个数据,并新增版本号
PUT 可以新增可以修改。PUT 必须指定 id;由于 PUT 需要指定 id,我们一般都用来做修改
操作,不指定 id 会报错
查询文档
GET customer/external/1
{ "_index": "customer", //在哪个索引
"_type": "external", //在哪个类型
"_id": "1", //记录 id
"_version": 2, //版本号
"_seq_no": 1, //并发控制字段,每次更新就会+1,用来做乐观锁
"_primary_term": 1, //同上,主分片重新分配,如重启,就会变化
"found": true, "_source": { //真正的内容
"name": "John Doe"
}
}
更新文档
POST customer/external/1/_update
{
"doc":{
"name": "John Doew"
}
}
或者
POST customer/external/1
{
"name": "John Doe2"
}
或者
PUT customer/external/1
{
"name": "John Doe"
}
两者不同(带update)
POST 操作会对比源文档数据,如果相同不会有什么操作,文档 version 不增加
PUT 操作总会将数据重新保存并增加 version 版本;
带_update 对比元数据如果一样就不进行任何操作。
看场景;
对于大并发更新,不带 update;
对于大并发查询偶尔更新,带 update;对比更新,重新计算分配规则。
跟新时同时增加数据
不携带update post请求也会怎加版本
POST customer/external/1/_update
{ "doc": { "name": "Jane Doe", "age": 20 }
}
删除文档&索引
DELETE customer/external/1
DELETE customer
bulk批量api
简单示例
POST customer/external/_bulk
{"index":{"_id":"1"}}
{"name": "John Doe" }
{"index":{"_id":"2"}}
{"name": "Jane Doe" }
复杂示例
POST /_bulk
{ "delete": { "_index": "website", "_type": "blog", "_id": "123" }}
{ "create": { "_index": "website", "_type": "blog", "_id": "123" }}{ "title":
"My first blog post" }
{ "index": { "_index": "website", "_type": "blog" }}
{ "title":
"My second blog post" }
{ "update": { "_index": "website", "_type": "blog", "_id": "123", "_retry_on_conflict" : 3} }
{ "doc" : {"title" : "My updated blog post"} }
bulk API 以此按顺序执行所有的 action(动作)。如果一个单个的动作因任何原因而失败,
它将继续处理它后面剩余的动作。当 bulk API 返回时,它将提供每个动作的状态(与发送
的顺序相同),所以您可以检查是否一个指定的动作是不是失败了