MongoDB分片
是MongoDB支持的另一种集群形式,它可以满足MongoDB数据量呈爆发式增长需求。当MongoDB存储海量的数据时,一台机器可能无法满足数据存储的需求,也可能无法提供可接受的读写吞吐量,这时,就可以通过在多台机器上对海量数据进行划分(即分片),使得MongoDB数据库系统能够存储和处理更多的数据。
分片与副本集主要区别在于,分片是每个节点存储数据的不同片段,而副本集是每个节点存储数据的相同副本。
分片概述
分片技术是开发人员用来提高数据存储和数据读写吞吐量常用的技术之一。简单的来说,分片主要是将数据进行划分后,将它们分别存放于不同机器上的过程。通过使用分片可以实现降低单个机器的压力和处理更大的数据负载功能。分片与副本集主要区别在于,分片是每个节点存储数据的不同片段,而副本集是每个节点存储数据的相同副本。
分片集群架构
从图中看出,分片集群中主要由三个部分组成,即分片服务器(Shard)、路由服务器(Mongos)以及配置服务器(Config Server)组成。其中,分片服务器有三个,即Shard1、Shard2和Shard3;路由服务器有两个,即Mongos1和Mongos2;配置服务器有三个,即主、副、副。
shard:
分片服务器即 MongoDB实例(即mongod,用Shard表示)。分片服务器是实际存储数据的组件,持有完整数据集中的一部分,每个分片服务器都可以是一个MongoDB实例,也可以是一组MongoDB实例组成的集群(副本集)。从MongoDB3.6开始,必须将分片部署为副本集,这样具有更好的容错性。
部署分片集群
一、部署shard(副本集群)
部署两个shard分片块,用于数据存储。
第一步:环境的准备
两个分片,分别是shard1和shard2,每个分片包含一主一从两个实例。
将 bin 文件复制到每个实例中, 并创建data 文件以及 log 文件存放数据库数据和日志数据。每个分片都包含一主一从,每个实例都包含bin文件、data文件和log文件,如图(以shard1为例):
第二步:启动分片服务
首先关闭之前打开的数据库服务
注意:下面窗口均为一次性服务,可以最小化,请勿关闭!
启动分片集群shard1(shard11和shard12)
shard11
进入要分片的数据库bin目录中启动cmd,-shardsvr 为分片声明
mongod -shardsvr -replSet shard1 -port 4006 -dbpath D:\shard1\shard11\data -logpath D:\shard1\shard11\log\shard11.log
shard12
再次进入bin目录中启动cmd
mongod -shardsvr -replSet shard1 -port 4007 -dbpath D:\shard1\shard12\data -logpath D:\shard1\shard12\log\shard12.log
命令一直保持运行状态则说明服务运行成功。
启动分片集群2(shard21和shard22)
shard21
mongod -shardsvr -replSet shard2 -port 4008 -dbpath D:\shard2\shard21\data -logpath D:\shard2\shard21\log\shard21.log
shard22
mongod -shardsvr -replSet shard2 -port 4009 -dbpath D:\shard2\shard22\data -logpath D:\shard2\shard22\log\shard22.log
注意:
电脑版本比较高,所以的 cmd 需要使用管理员身份运行
启动服务均为一次性服务,关闭 cmd 即为关闭服务,所以在未完成前,请勿关闭
实例均未添加至系统环境变量,请在 bin 目录下启动
虽然窗口很多,操作不太友好,但是在 win 系统下,还是多有耐心一点, linux会简单一些
第三步:配置分片(shard1和shard2)
shard1
首先,进入到shard1中的任意一个节点中:
1.切换到admin数据库
use admin
如图所示:
2.配置集群
config={_id:"shard1",members:[
... {_id:0,host:"localhost:4006",priority:2},
... {_id:1,host:"localhost:4007",priority:1}
... ]}
如图所示:
3.对副本集进行初始化操作,具体命令如下
rs.initiate(config)
如图所示:
shard2
与shard1相似,进入shard2的任意一个节点中:
use admin
config={_id:"shard2",members:[
... {_id:0,host:"localhost:4008",priority:2},
... {_id:1,host:"localhost:4009",priority:1}
... ]}
rs.initiate(config)
以下为成功截图:
查看副本集状态
最后,通过执行rs.status()命令查看副本集状态判断副本集是否部署成功:
这样,shard的2个集群就配置好了。
二、部署config server
配置服务器器即Config Server。
配置服务器存储着分片集群的持久化元数据,而路由服务器存储着分片集群的非持久化元数据,这些数据均为内存缓存的数据。
下面,我们开始部署config server:
第一步:环境准备
config 服务配置为副本集,这里设置为一主一从
老样子,每个文件夹添加data和log:
两个实例,共两个窗口,注意窗口不要关闭
第二步:启动config server
启动config1
进入要分片的数据库bin目录中,启动cmd:
--configsvr 这里我们完全可以像启动普通 mongodb 服务一样启动,不需要添加 —shardsvr 和 configsvr 参数。因为这两个参数的作用就是改变启动端口的,所以我们自行指定了端口就可以。
mongod -configsvr -replSet confset -port 4002 -dbpath D:\config\config1\data -logpath D:\config\config1\log\config1.log
启动config2
mongod -configsvr -replSet confset -port 4003 -dbpath D:\config\config2\data -logpath D:\config\config2\log\config2.log
不要关闭窗口,最小化即可。
第三步:配置config server集群
进入任何一个配置服务器的节点初始化配置服务器的群集
mongo -port 4002
mongo -port 端口号
use admin
config={_id:"confset",configsvr:true,members:[
... {_id:0,host:"localhost:4002"},
... {_id:1,host:"localhost:4003"}
... ]}
rs.initiate(config)
查看副本集状态:
rs.status()
示例如下:
三、部署路由服务器 Route Process
新建mongos,在里面创建专门的文件夹存放日志,也可以再弄一个bin文件:
mongos:就是路由服务器,主要提供客户端应用程序与分片集群交互的接口,所有的请求都需要通过路由服务器进行协调工作。
进入 数据库 bin 目录中 启动 cmd:
mongos -configdb confset/localhost:4002,localhost:4003 -logpath D:\mongos\log\mongos.log -port 4000
示例如下:
运行不结束,说明一次性服务是成功的。
配置分片信息
bin目录下使用 MongoDB Shell 登录到 mongos,添加Shard节点 :
mongo -port 4000
如图:
出现mongos就算是成功了。
增加第一个分片:
sh.addShard("shard1/localhost:4006,localhost:4007")
如图:
第二个:
sh.addShard("shard2/localhost:4008,localhost:4009")
如图:
4006和4007存储数据一样,4008和4009也一样,但是shard1和shard2不一样。
查看分片集
db.getSiblingDB(“config”).shards.find()
测试分片
登入路由(4000) 端口
mongo -port 4000
指定分片数据库为test:
sh.enableSharding("test")
如图:
指定数据库里需要分片的集合和片键,片键根据实际情况选择:
sh.shardCollection("test.c1",{"id":"hashed"})
上述令指定指分片集合为c1,分片字段为“id”,分片形式是哈希分片,若改成“1”则为范围分片
如图:
如果集合已经包含数据,则必须在分片集合之前创建一个支持分片键的索引,如果集合为空,则
mongodb 将创建索引。
插入10000条数据验证,数据必须包含分片键:id:
for(var i=1;i<=10000;i++){
... db.c1.save({id:i,name:"a"+i,age:i});
... }
查看分片状态
用sh.status()查看分片集群状态:
sh.status()
Robo 3T 查看分片集
最后,通过连接两个 shard 端口查看分片情况,查看两个shard中的数据不同,则说明分片成功。
shard1--4006端口中的数据存储,查看c1集合中的数据,可见分片键id的分布情况。
shard1--4006端口完全一样,说明shard1主从复制成功【副本集群部署成功】
最后
重新打开mongodb服务,即可像原来一样使用,但是数据存储方式和原来已经不一样了,变成了分布式的分片存储。
至此,mongodb分片部署就完成了!