MongoDB Sharding分片简介
MongoDB sharding是一种讲海量的数据水平扩展到数据库集群系统,数据分别存储在sharding的各个节点上,使用者通简单的配置就可以很方便地构建一个分布式MongoDB集群。
MongoDB的数据分块称为 chunk 。每个chunk都是collection中一段连续的数据记录,通常最大尺寸是200MB,超出则生成新的数据块。
要构建一个mongoDB sharding cluster,需要三种角色:
Shared Server即 存储实际数据的分片,每个shared可以是一个mongod 实例,也可以是一组mongod实例构成的 Replica Set。为了实现 Shard 内部 auto-failover ,MongoDB官方建议每个Shard为一组Replica Set。
Config Server 为了将一个特定的collection存储在多个shard中,需要为该Collection指定一个shard key,例如{age:1},shard key可以决定该条记录属于哪个chunk。Config server就是用来存储:所有Shard节点的配置信息、每个chunk的shard key 范围、chunk在各个shard的分布情况、该集群中所有DB和collection的sharding配置信息。
Route Process 是一个前端路由,客户端由此接入,然后询问Config Servers需要到那个Shard上查询或保存记录,再连接相应的Shard进行操作,最后将结果返回给客户端。客户端只需要将原本发给mongod的查询或者更新请求原封不动地发给 Routing Process,而不必关系所操作的记录存储在那个 Shard上。
sharding 分片架构与规划
在一台物理机上构建一个简单的Sharding Cluster,架构图如下:
MongoDB sharding cluster规划如下:
MongoDB sharding cluster由1个路由进程,1个配置服务器,2个Shard服务组成;
具体规划为:
Shard Server 1: port 20000; db_path /data/shard/s0 ; log_path /data/shard/log/s0.log
Shard Server 2: port 20001; db_path /data/shard/s1 ; log_path /data/shard/log/s1.log
Config Server: port 30000; db_path /data/shard/config ; log_path /data/shard/log/config.log
Route Process: port 40000; log_path /data/shard/log/route.log
MongoDB软件安装目录为: /usr/local/mongodb/
注:在一台服务器上搭建环境,便于自己实验和演示;在实际生产环境中,如果在多台服务器上搭建,也只是IP地址和节点互信按照对应场景配置一下就可以了,其他的与单机环境演示是一样的。
场景一: 建立ShardingCluster
1)启动 Shard Server
创建Shard Server节点目录:
mkdir -p /data/shard/s0
mkdir -p /data/shard/s1
mkdir -p /data/shard/log
启动shard Server服务实例:
/usr/local/mongodb/bin/mongod --shardsvr --port 20000 --dbpath /data/shard/s0 --fork --logpath /data/shard/log/s0.log --directoryperdb
/usr/local/mongodb/bin/mongod --shardsvr --port 20001 --dbpath /data/shard/s1 --fork --logpath /data/shard/log/s1.log --directoryperdb
2)启动Config Server
创建数据目录:
mkdir -p /data/shard/config
启动Config Server实例:
/usr/local/mongodb/bin/mongod --configsvr --port 30000 --dbpath /data/shard/config --fork --logpath /