集群、节点、索引、类型、文档、分片、映射分别是什么?

查看官网
https://www.elastic.co/guide/en/elasticsearch/reference/6.0/_basic_concepts.html
基本概念
有一些概念是Elasticsearch的核心。从一开始就理解这些概念将极大地帮助简化学习过程。

近实时(NRT)
Elasticsearch是近实时搜索平台。这意味着从索引文档到可搜索到这段时间之间存在少许延迟(通常为一秒钟)。


集群是一个或多个节点(服务器)的集合,这些节点一起保存您的全部数据,并在所有节点之间提供联合索引和搜索功能。集群由唯一名称标识,默认情况下为“ elasticsearch”。该名称很重要,因为如果节点被设置为通过其名称加入群集,则该节点只能是群集的一部分。

确保不要在不同的环境中重复使用相同的集群名称,否则最终可能会导致节点加入了错误的集群。例如,您可以将logging-dev,logging-stage和logging-prod 用于开发,登台和生产集群。

请注意,只有一个节点在其中的集群是有效且完全可以的。此外,您可能还具有多个独立的群集,每个群集都有其自己的唯一群集名称。

节点
节点是一台服务器,它是群集的一部分,存储数据并参与群集的索引和搜索功能。就像群集一样,节点由名称标识,该名称默认为在启动时分配给该节点的随机通用唯一标识符(UUID)。如果不想使用默认的节点名称,则可以定义任何节点名称。此名称对于管理目的很重要,在管理中您要识别网络中的哪些服务器与Elasticsearch群集中的哪些节点相对应。

可以将节点配置为通过集群名称加入特定集群。默认情况下,每个节点都设置为加入一个名为的集群elasticsearch,这意味着如果您在网络上启动了多个节点,并且假设它们可以相互发现,它们将全部自动形成并加入一个名为的集群elasticsearch。

在单个群集中,您可以根据需要拥有任意数量的节点。此外,如果您的网络上当前没有其他Elasticsearch节点在运行,则默认情况下启动单个节点将形成一个名为的新单节点集群elasticsearch。

索引、文档、字段即elasticsearch的核心

索引(indice)
索引是具有相似特征的文档的集合。例如,您可以为客户数据创建索引,为产品目录创建另一个索引,为订单数据创建另一个索引。索引由一个名称标识(必须全为小写),并且对该索引中的文档执行索引,搜索,更新和删除操作时,该名称用于引用该索引。

在单个集群中,可以定义任意多个索引。

类型(type)
在6.0.0中已弃用。
请参阅删除映射类型

一种类型曾经是索引的逻辑类别/分区,它使您可以在同一索引中存储不同类型的文档,例如,一种用于用户,另一种用于博客文章。不再可能在索引中创建多个类型,并且在以后的版本中将删除整个类型的概念。有关更多信息,请参见删除映射类型。

文档(document)
文档是可以建立索引的基本信息单位。例如,您可以拥有一个针对单个客户的文档,一个针对单个产品的文档,以及另一个针对单个订单的文档。本文档以JSON(JavaScript对象表示法)表示,这是无处不在的Internet数据交换格式。

字段(field)
文档中的属性

映射(mapping)

映射是定义文档的过程,文档包含哪些字段,这些字段是否保存,是否索引,是否分词等

分片和副本
索引可能会存储大量数据,这些数据可能超过单个节点的硬件限制。例如,十亿个文档的单个索引占用了1TB的磁盘空间,可能不适合单个节点的磁盘,或者可能太慢而无法单独满足来自单个节点的搜索请求。

为了解决这个问题,Elasticsearch提供了将索引细分为多个碎片的功能。创建索引时,只需定义所需的分片数量即可。每个分片本身就是一个功能齐全且独立的“索引”,可以托管在群集中的任何节点上。

分片很重要,主要有两个原因:

它允许您水平分割/缩放内容量
它允许您跨碎片(可能在多个节点上)分布和并行化操作,从而提高性能/吞吐量
分片如何分布以及其文档如何聚合回到搜索请求中的机制由Elasticsearch完全管理,并且对您作为用户是透明的。

在随时可能发生故障的网络/云环境中,非常有用,强烈建议您使用故障转移机制,以防碎片/节点因某种原因脱机或消失。为此,Elasticsearch允许您将索引分片的一个或多个副本制作为所谓的副本分片(简称副本)。

副本很重要,主要有两个原因:

如果分片/节点发生故障,它可提供高可用性。因此,重要的是要注意,副本碎片永远不会与从其复制原始/主要碎片的节点分配在同一节点上。
由于可以在所有副本上并行执行搜索,因此它可以扩展搜索量/吞吐量。
总而言之,每个索引可以分为多个碎片。索引也可以复制零(表示没有副本)或多次。复制后,每个索引将具有主碎片(从中进行复制的原始碎片)和副本碎片(主碎片的副本)。可以在创建索引时为每个索引定义分片和副本的数量。创建索引后,您可以随时动态更改副本数,但不能事后更改碎片数。

默认情况下,Elasticsearch中的每个索引分配有5个主碎片和1个副本,这意味着如果集群中至少有两个节点,则索引将具有5个主碎片和另外5个副本碎片(1个完整副本),总计每个索引10个碎片。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
│ workspace.zip │ 列表生成.reg │ 淘淘商城源代码.zip │ ├─01.第一天 │ 01.课程计划.avi │ 02.淘淘商城介绍.avi │ 03.创建后台工程-taotao-parent.avi │ 04.创建taotao-manager.avi │ 05.svn的使用.avi │ 06.ssm框架整合思路.avi │ 07.ssm框架整合.avi │ 08.测试工程.avi │ 打开必读.txt │ 淘淘商城第一天笔记.docx │ ├─02.第二天 │ 07.商品类目选择完成.avi │ 01.课程计划.avi │ 02.展示首页.avi │ 03.分页插件01.avi │ 04.分页插件的使用方法.avi │ 05.商品列表展示.avi │ 06.商品类目选择-分析.avi │ 08.图片服务器的分析.avi │ 09.nginx介绍.avi │ 10.项目调试方法.avi │ 11.nginx的安装及启动、停止.avi │ 12.nginx的配置文件-通过端口号区分虚拟机.avi │ 13.通过域名配置虚拟机.avi │ 淘淘商城第二天笔记.docx │ ├─03.第三天 │ 01.课程回顾.avi │ 02.课程计划.avi │ 03.什么是反向代理.avi │ 04.nginx的反向代理及负载均衡.avi │ 05.FastDFS介绍.avi │ 06.FastDFS安装步骤-文件上传.avi │ 07.配置nginx插件访问图片.avi │ 08.测试图片上传.avi │ 09.FastDFS工具类的使用.avi │ 10.图片上传过程分析.avi │ 11.图片上传Service.avi │ 12.图片上传完成.avi │ 13.解决火狐兼容性问题.avi │ 14.spring的父子容器.avi │ 淘淘商城第三天笔记.docx │ ├─04.第四天 │ 01.第三天内容复习.avi │ 02.课程计划.avi │ 03.富文本编辑器的使用.avi │ 04.商品添加功能-分析.avi │ 05.商品添加功能实现.avi │ 06.规格参数介绍及实现思路.avi │ 07.规格参数关联的数据库.avi │ 08.商品规格参数模板列表.avi │ 09.判断规格参数模板是否存在.avi │ 10.保存规格参数模板.avi │ 11.展示规格参数模板.avi │ 12.保存规格参数.avi │ 13.展示规格参数.avi │ 淘淘商城第四天笔记.docx │ ├─05.第五天 │ 01.课前复习.avi │ 02.课程计划.avi │ 03.服务层taotao-rest工程搭建.avi │ 04.创建taotao-portal,展示首页.avi │ 05.展示商品类目01.avi │ 06.jsonp原理.avi │ 07.发布商品分类查询服务-分析.avi │ 08.发布商品分类查询服务-Service.avi │ 09.发布商品分类查询服务-完成.avi │ 10.跨域调用taotao-rest服务.avi │ 打开必读.txt │ 淘淘商城第五天笔记.docx │ ├─06.第六天 │ 01.内容复习.avi │ 02.课程计划.avi │ 03.cms系统分析.avi │ 04.内容分类列表展示.avi │ 05.添加节点、及课后作业.avi │ 06.新增内容-分析.avi │ 07.cms系统添加内容-完成.avi │ 08.httpclient.avi │ 09.HttpClient的使用方法.avi │ 10.内容查询服务发布.avi │ 11.轮播图展示.avi │ 淘淘商城第六天笔记.doc │ ├─07.第七天 │ 0
⼆、⼤数据与分布式 ⼀、分布式⽂件系统 ⼤数据管理研究的⽂件系统主要是分布式⽂件系统,分布式⽂件系统时建⽴在多台服务器上,并对多个节点上的⽂件进⾏统⼀管理,为⽤户 提供单⼀⽂件视图和⽂件访问结构。⽬前流⾏的分布式⽂件系统是建⽴在互联⽹环境上,基于节点⾃⾝的⽂件系统⽽实现的⾯向海量数据管 理的⽂件系统,主要研究在⼤规模集群上数据划分和数据分布,所存储的数据的可靠性以及存储管理的可扩展性,如何⽀持⽤户⼤规模并发 访问以及如何适应新型的并⾏计算模型。 ⽬前⽐较成熟的分布式⽂件系统解决⽅案有⾕歌的 GFS ,它是从实际需求、业务类型以及技术环境等⽅⾯考虑设计并实现的分布式⽂件系 统,它充分满⾜了应⽤存储的需求。雅虎的 HDFS 和亚马逊的 S3 也是相对成熟的分布式⽂件系统解决⽅案。HDFS 最⼤的⽤户是雅虎, 其次是 Facebook,S3 是亚马逊提供的在线按需存储服务,它是⼀个基于对象的存储系统,为客户提供任意⼤⼩的对象存储。 ⼆、分布式数据管理平台 传统数据库⽆法应对⼤数据环境下数据存储的管理。NoSQL 数据库技术的提出为⼤数据管理提供了⼀个很好的解决⽅案。NoSQL 数据库 根据存储模型可以划分为:基于 Key-Value 的存储模型,基于 Cloumn Family 的存储模型,、基于⽂档的存储明星以及基于图的模型。 2.1 基于 Key-Value 存储的 NoSQL 数据库 基于 Key-Value 存储的 NoSQL 数据库主要是基于键值对来存储,利⽤哈希表来维护 Key 值与具体 Value 之间的映射关系,⽤户可以通 过 Key ⽅便的对数据进⾏定位。 Value 是以⼀定的数据结构进⾏存储,⽽系统不对 Value 进⾏任何解释,应⽤程序会根据事先约定的格式 对数据进⾏处理并对 Value 进⾏解释。Key-Value 类型的 NoSQL 数据库存在⼀个弊端,就是⽤户⽆法根据 Value 中的某个属性值查询数 据,因此该类型的数据库只能⽀持对 Key 进⾏简单的查询。 Tip:常见的 Key-Value 类型的 NoSQL 数据库有:Redis、Tokyo Cabinet Tryant、Oracle Berkeley DB 等。 2.2 基于 Cloumn Family 存储的 NoSQL 数据库 Cloumn Family 是指具有相同性质的序列属性。它的存储结构是在 Key-Value 模型基础上进⾏重新设计的,Value 被设计的更加精细,⼀ 个 Value 由多个属性列组成,这些属性列组成了⼀个组从⽽在数据结构上呈现出多层嵌套映射。 Tip:常见的 Cloumn Family 类型的NoSQL 数据库是 BigTable。 2.3 基于⽂档存储的 NoSQL 数据库 基于⽂档存储的 NoSQL 数据库以传统的⽂档存储技术为基础,存储模型以是 Key-Value 存储模型为基础,每个⽂档是⼀个 Key-Value 列 表,⽂档格式⼀般采⽤ JSON 或者类似于 JSON 的格式。该类型的数据库对于特定的查询来说具有较⾼的效率,并且给数据库的设计⼈员 带来了建模的灵活性,但却给数据操作⼈员带来了极⼤的负担。基于⽂档存储的 NoSQL 数据库存在⼀个弊端,数据是循环嵌套的,会使应 ⽤程序变得越来越复杂、难以维护和理解。因此在使⽤该类型 NoSQL 数据库时应当在设计阶段平衡好灵活性与复杂性。 Tip:常见的基于⽂档存储的 NoSQL 数据库有:Lotus Notes、CouchDB、MongoDB 和 Riak 等。 2.4 基于图存储的 NoSQL 数据库 传统图数据库⼤部分是⾯向对象的,虽然它们在节点遍历等图数据操作中都具有很好的性能,但是并没有考虑到系统的可扩展性,因此就出 现了基于图存储的 NoSQL 数据库。这种类型的 NoSQL 数据库不仅以扩展性为重要⽬标,还可以对⼤规模的图数据进⾏有效的管理和分 析。基于图存储模型的 NoSQL 数据库主要应⽤于社交⽹络、科学研究以及其他需求不断发展的应⽤领域,在这些应⽤中图模型可以在庞⼤ 的数据规模下更加清晰准确的表达数据的意义。 三、数据组织与管理 ⼤数据组织和管理技术主要包括数据划分技术、数据块分布技术、索引技术、副本管理技术和⽀持事务处理技术等,下⾯重点介绍⼀下前三 种技术,后两种技术将在后续的⽂章中详细讨论。 3.1 数据划分技术 数据划分是指将数据集分割成多个独⽴互不相交的⼦集合,主要⽬的是使具有相关性的元组和属性尽量⼀起存储,从⽽减少操作的开销代价 ⽽提⾼操作性能。 NoSQL 数据库在⼤数据环境下因为每个表的数据量很⼤,因此都会以分布式的形式对表进⾏存储。只有表进⾏划分才能实现表的分布式存 储,所以数据划分对提⾼ NoSQL 数据库性能有重要作
### 回答1: 以下是一段使用 Elasticsearch Java API 编写的三节点 ES 集群代码示例: ``` import org.elasticsearch.client.Client; import org.elasticsearch.client.transport.TransportClient; import org.elasticsearch.common.settings.Settings; import org.elasticsearch.common.transport.TransportAddress; import org.elasticsearch.transport.client.PreBuiltTransportClient; import java.net.InetAddress; public class ThreeNodeESCluster { public static void main(String[] args) throws Exception { // 设置集群名称 Settings settings = Settings.builder().put("cluster.name", "my-es-cluster").build(); // 创建一个 TransportClient TransportClient client = new PreBuiltTransportClient(settings); // 添加三个节点 client.addTransportAddress(new TransportAddress(InetAddress.getByName("node1"), 9300)); client.addTransportAddress(new TransportAddress(InetAddress.getByName("node2"), 9300)); client.addTransportAddress(new TransportAddress(InetAddress.getByName("node3"), 9300)); // 关闭客户端连接 client.close(); } } ``` 请注意,在上面的代码中,我们假设您的三个节点分别命名为 `node1`,`node2` 和 `node3`,并且每个节点Elasticsearch 实例在 9300 端口上监听。此外,您需要在代码中添加更多的实际操作,以完整使用 ES 集群。 ### 回答2: 编写一个三节点的ES集群代码的例子如下: ``` # 导入必要的模块 from elasticsearch import Elasticsearch # 创建一个ES集群实例 es = Elasticsearch([ {'host': '节点1的IP地址', 'port': '节点1的端口号'}, {'host': '节点2的IP地址', 'port': '节点2的端口号'}, {'host': '节点3的IP地址', 'port': '节点3的端口号'} ]) # 测试连接是否成功 if es.ping(): print("ES集群连接成功!") else: print("ES集群连接失败!") # 示例:创建索引 index_name = "my_index" index_body = { "settings": { "number_of_shards": 1, "number_of_replicas": 1 }, "mappings": { "properties": { "title": {"type": "text"}, "content": {"type": "text"} } } } es.indices.create(index=index_name, body=index_body) print("索引创建成功!") ``` 在这个例子中,我们通过导入`elasticsearch`模块来创建一个ES集群的实例。我们需要指定每个节点的IP地址和端口号来初始化连接。然后,我们可以使用`ping()`方法来测试集群的连接是否成功。 在示例中,我们展示了如何创建一个名为`my_index`的索引。我们使用`create()`方法来指定索引名称和索引的设置和映射。在这里,我们创建了一个只有一个分片和一个副本的索引,并定义了`title`和`content`字段的数据类型。 需要注意的是,这只是一个简单的示例,实际上一个真正的ES集群还需要进行更多的配置和设置,比如使用正确的用户名和密码、配置TLS/SSL等。在实际使用中,还需要根据具体需求来编写更复杂的代码。 ### 回答3: 要编写一个包含三个节点Elasticsearch集群,可以使用以下代码: ```python from elasticsearch import Elasticsearch from elasticsearch.exceptions import ElasticsearchException # 定义集群节点的主机地址和端口 nodes = [ {'host': 'node1', 'port': 9200}, {'host': 'node2', 'port': 9200}, {'host': 'node3', 'port': 9200} ] try: # 创建一个Elasticsearch集群对象 es = Elasticsearch(hosts=nodes) # 检查集群的健康状态 health = es.cluster.health() if health['status'] == 'green': print("集群健康状态:绿色") elif health['status'] == 'yellow': print("集群健康状态:黄色") elif health['status'] == 'red': print("集群健康状态:红色") # 查看集群中的节点信息 nodes_info = es.nodes.info() for node_id, node_info in nodes_info['nodes'].items(): print("节点ID:", node_id) print("主机名:", node_info['name']) print("协议:", node_info['http_address']) print("IP地址:", node_info['ip']) print() except ElasticsearchException as e: print("连接Elasticsearch集群出错:", e) ``` 这段代码使用elasticsearch-py库来与Elasticsearch集群进行通信。首先,定义了三个节点的主机地址和端口。然后,通过`Elasticsearch`类创建了一个Elasticsearch集群对象,并使用指定的节点进行连接。接下来,使用`cluster.health()`方法获取集群的健康状态,并根据状态输出相应的信息。最后,使用`nodes.info()`方法获取集群中所有节点的信息,并逐个输出每个节点的相关信息。 注意,你需要提前安装elasticsearch-py库(使用`pip install elasticsearch`命令)才能运行以上代码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值