随着大数据时代的到来,非关系型数据库(NoSQL)因其独特的优势逐渐受到广泛关注。MongoDB,作为NoSQL数据库中的佼佼者,以其灵活的文档模型、强大的扩展性和高性能的查询能力,成为了众多开发者的首选。本博客将围绕MongoDB的基本操作、聚合查询、索引优化以及通过不同API(如Python、Java、robo3t等)操作MongoDB的方法展开,并结合实际案例进行说明。
一、MongoDB基本操作
1. 文档增删改查
MongoDB中的基本操作主要包括文档的增删改查。
- 增(Insert):使用
insertOne()
或insertMany()
方法向集合中插入文档。 - 删(Delete):使用
deleteOne()
或deleteMany()
方法删除满足条件的文档。 - 改(Update):使用
updateOne()
、updateMany()
或replaceOne()
方法修改满足条件的文档。 - 查(Find):使用
find()
方法查询满足条件的文档,结合查询操作符(如$eq
、$gt
、$lt
等)进行复杂查询。
2. 示例
假设我们有一个名为students
的集合,存储了学生的信息。以下是一个简单的增删改查示例:
from pymongo import MongoClient
# 连接MongoDB
client = MongoClient('mongodb://localhost:27017/')
db = client['school']
students_collection = db['students']
# 插入文档
student = {"name": "张三", "age": 18, "major": "计算机科学"}
students_collection.insert_one(student)
# 查询文档
results = students_collection.find({"name": "张三"})
for result in results:
print(result)
# 更新文档
students_collection.update_one({"name": "张三"}, {"$set": {"age": 19}})
# 删除文档
students_collection.delete_one({"name": "张三"})
二、聚合查询
MongoDB的聚合管道提供了强大的数据聚合能力,可以通过一系列阶段对数据进行转换和计算。常用的聚合阶段包括$match
(过滤)、$group
(分组)、$sort
(排序)、$project
(投影)等。
示例
假设我们想要统计每个专业的学生人数:
pipeline = [
{"$match": {}}, # 空条件表示不过滤,也可以选择添加其他过滤条件
{"$group": {"_id": "$major", "count": {"$sum": 1}}},
{"$sort": {"count": -1}} # 按学生人数降序排序
]
results = students_collection.aggregate(pipeline)
for result in results:
print(result)
三、索引优化
索引是MongoDB提高查询性能的关键。通过为经常用于查询的字段创建索引,可以显著减少查询时间。但是,过多的索引会占用额外的磁盘空间并可能降低写入性能。因此,需要根据实际业务需求合理规划索引。
示例
为students
集合的name
字段创建索引:
students_collection.create_index([("name", 1)]) # 1表示升序,-1表示降序
四、API操作MongoDB方法
除了Python API外,MongoDB还支持多种语言的驱动程序和图形化工具,如Java、robo3t等。这些API和工具提供了丰富的功能和灵活的操作方式,方便开发者根据自己的需求选择合适的工具进行开发。
1. Python API
Python的pymongo
库提供了丰富的MongoDB操作接口,上述示例已经展示了其基本用法。
2. Java API
Java开发者可以使用MongoDB Java Driver来操作MongoDB数据库。该驱动程序提供了与Python API类似的接口和功能。
3. robo3t(原Robomongo)
robo3t是一款流行的MongoDB图形化管理工具,支持Windows、Mac OS和Linux系统。它提供了直观的界面来管理数据库、集合、文档和索引,并支持查询、导出和导入数据等功能。
OS:win10
MongoDB:4.4.24
分片架构
从图中可以看出,分片集群中主要由三个部分组成,即分片服务器( Shard )、路由服务器
( Mongos )以及配置服务器( Config Server )组成。其中,分片服务器有三个,即 Shard1 、
Shard2 、 Shard3 ;路由服务器有两个,即 Mongos1 和 Mongos2 ;配置服务器有三个,即主、副、副。
主要有如下所述三个主要组件:
Shard: 用于存储实际的数据块,实际生产环境中一个shard server 角色可由几台机器组个一个 replica set 承担,防止主机单点故障
Config Server: mongod实例,存储了整个 ClusterMetadata ,其中包括 chunk 信息。
Query Routers: 前端路由,客户端由此接入,且让整个集群看上去像单一数据库,前端应用可以透明使用。
部署分片集群
部署shard
步骤一:环境准备
分片 | 节点(实例) | 端口 | 路径 |
1 | shard11(主) | 4006 | dbpath:D:\shard1\shard11\data logpath:D:\shard1\shard11\log |
shard12(从) | 4007 | dbpath:D:\shard1\shard12\data logpath:D:\shard1\shard12\log | |
2 | shard21(主) | 4008 | dbpath:D:\shard2\shard21\data logpath:D:\shard2\shard21\log |
shard22(从) | 4009 | dbpath:D:\shard2\shard22\data logpath:D:\shard2\shard22\log |
创建相应的文件
每一个分片都应该安装 MongoDB 实例,需要将 bin 文件复制到每个分片的节点中, 并且创建data 文件以及 log 文件存放数据库数据和日志数据
步骤二 启动分片服务(实例)
启动分片集群1(shard11和shard12)
shard11
然后进入数据库bin目录中,
输入cmd然后回车
\bin>mongod --shardsvr --replSet shard1 -port 4006 -dbpath D:\shard1\shard11\data -logpath D:\shard1\shard11\log\shard11.log
在命令符中输入上述命令
--shardsvr 为分片声明
当命令一直保持运行状态则说明服务运行成功,此服务为一次性服务,不要关闭此窗口,最小化即可。
再次进入数据库bin目录中,启动cmd
bin>mongod --shardsvr --replSet shard1 -port 4007 -dbpath D:\shard1\shard12\data -logpath D:\shard1\shard12\log\shard12.log
启动分片集群2(shard21和shard22)(与启动分片集群1(shard11和shard12)同理)
shard21
\bin>mongod --shardsvr --replSet shard2 -port 4008 -dbpath D:\shard2\shard21\data -logpath D:\shard2\shard21\log\shard21.log
shard22
\bin>mongod --shardsvr --replSet shard2 -port 4009 -dbpath D:\shard2\shard22\data -logpath D:\shard2\shard22\log\shard22.log
tips:
电脑版本比较高,所以的 cmd 需要使用管理员身份运行
启动服务均为一次性服务,关闭 cmd 即为关闭服务,所以在未完成前,请勿关闭
实例均未添加至系统环境变量,请在 bin 目录下启动
虽然窗口很多,操作不太友好,但是在 win 系统下,还是多有耐心一点, linux会简单一些
步骤三:配置分片(shard)集群
进入数据库bin目录中,启动cmd
进入到shard1集群任何一个节点中
1 2 3 4 5 6 7 8 9 | use admin config={_id:"shard1",members:[ ... {_id:0,host:"localhost:4006",priority:2}, ... {_id:1,host:"localhost:4007",priority:1} ... ]} |
进入到shard2集群任何一个节点中
use admin
config={_id:"shard2",members:[
... {_id:0,host:"localhost:4008",priority:2},
... {_id:1,host:"localhost:4009",priority:1}
... ]}
至此,shard的两个集群配置好了。
五、总结
MongoDB作为一款强大的NoSQL数据库,其灵活的文档模型、强大的扩展性和高性能的查询能力使其成为大数据时代的重要工具。通过掌握MongoDB的基本操作、聚合查询、索引优化以及通过不同API操作MongoDB的方法,我们可以更好地利用MongoDB来处理和分析海量数据。希望本博客能为您在MongoDB的学习和应用中提供一些帮助和启示。