后续技术类文档更新到微信公众号-------->>喜欢的扫码关注
mongodb
首先关系型数据库和非关系型数据库的介绍;
对于关系型的数据库,存储数据之前,必须先建表建库,随着数据的复杂度越来越高,所建表的数量也就越来越多
但是非关系型数据库却不需要如此复杂;
关系型数据库很强大,但是它并不能很好的应付所有的应用场景;
MySQL的扩展性差;大数据下IO压力大;表结构更改困难。
mongodb 易扩展,大数据量高性能,灵活的数据模型,高可用。
mongodb有那些优势;
- 易扩展性;nosql数据库的种类繁多;共同的特点就是去掉了关系型数据库的关系型特性;数据之间没有关系
这样就非常容易扩展。 - 大数据。高性能;nosql都具有非常高的读写性能,尤其在大数据量下,同样表现优秀,得益于它的无关系
性,数据库结构简单; - 灵活的数据模型,不需要为事先存储的数据建立字段,随时可以存储自定义格式的数据,在关系型数据库中
增删是一件很麻烦的事,如果是一个非常大的数据量的表,增加字段简直就是噩梦。
mongodb的数据库命令:
查看当前数据库: db
查看所有的数据库: show dbs 或者 show databases
切换数据库: use db_name
删除当前数据库:db.dropDatabase()
mongodb的集合命令:
1, 如果不手动创建集合;向不存在的集合中第一次加入数据的时候,集合会被自动创建出来。
手动创建集合的命令:
db.createCollection(name,options)
db.createCollection(“stu”)
db.createCollection(“sub”, { capped : true, size : 10 } )
参数capped: 默认值为false表示不设置上限,值为true表示设置上限
参数size: 当capped值为true时, 需要指定此参数, 表示上限⼤⼩,当⽂档达到上限时, 会将之前的数据覆盖, 单位为字节
查看集合:show collections
删除集合:db.集合名称.drop()
mongodb常见的数据类型:
Object ID: ⽂档ID
String: 字符串, 最常⽤, 必须是有效的UTF-8
Boolean: 存储⼀个布尔值, true或false
Integer: 整数可以是32位或64位, 这取决于服务器
Double: 存储浮点值
Arrays: 数组或列表, 多个值存储到⼀个键
Object: ⽤于嵌⼊式的⽂档, 即⼀个值为⼀个⽂档
Null: 存储Null值
Timestamp: 时间戳, 表示从1970-1-1到现在的总秒数
Date: 存储当前⽇期或时间的UNIX时间格式
字符串;
布尔值;
整数;
浮点数;
数组,列表;
文档;
Null;
时间戳;
日期;
九种数据类型 。
mongodb的数据插入:
db.集合名称.insert(document)
db.stu.insert({name:‘gj’,gender:1})
db.stu.insert({_id:“20170101”,name:‘gj’,gender:1})
插入文档时候如果不指定id,会自动分配;
4.2 mongodb的保存
命令:db.集合名称.save(document) 如果⽂档的_id已经存在则修改, 如果⽂档的_id不存在则添加
4.3 mongodb的简单查询
命令:db.集合名称.find()
4.4 mongodb的更新
命令:db.集合名称.update( ,,{multi: })
参数query:查询条件
参数update:更新操作符
参数multi:可选, 默认是false,表示只更新找到的第⼀条记录, 值为true表示把满⾜条件的⽂档全部更新
db.stu.update({name:‘hr’},{name:‘mnc’}) 更新一条
db.stu.update({name:‘hr’},{KaTeX parse error: Expected 'EOF', got '}' at position 17: …et:{name:'hys'}}̲) 更新一条 db.st…set:{gender:0}},{multi:true}) 更新全部
注意:“multi update only works with $ operators”
4.5 mongodb的删除
命令:db.集合名称.remove(,{justOne: })
参数query:可选,删除的⽂档的条件
参数justOne:可选, 如果设为true或1, 则只删除⼀条, 默认false, 表示删除多条
5. mongodb的高级查询
知识点:
掌握mongodb的数据查询操作
掌握比较运算符的使用
掌握逻辑运算符的使用
掌握范围运算符的使用
了解正则的使用
掌握skip和limit的使用
掌握投影方法的使用
掌握排序方法的使用
了解去重方法的使用
5.1 数据查询
⽅法find(): 查询
db.集合名称.find({条件⽂档})
⽅法findOne():查询,只返回第⼀个
db.集合名称.findOne({条件⽂档})
⽅法pretty(): 将结果格式化
db.集合名称.find({条件⽂档}).pretty()
5.2 比较运算符
可以使用以下数据进行练习
{“name” : “郭靖”, “hometown” : “蒙古”, “age” : 20, “gender” : true }
{“name” : “⻩蓉”, “hometown” : “桃花岛”, “age” : 18, “gender” : false }
{“name” : “华筝”, “hometown” : “蒙古”, “age” : 18, “gender” : false }
{“name” : “⻩药师”, “hometown” : “桃花岛”, “age” : 40, “gender” : true }
{“name” : “段誉”, “hometown” : “⼤理”, “age” : 16, “gender” : true }
{“name” : “段王爷”, “hometown” : “⼤理”, “age” : 45, “gender” : true }
{“name” : “洪七公”, “hometown” : “华⼭”, “age” : 18, “gender” : true }
等于: 默认是等于判断, 没有运算符
⼩于:
l
t
(
l
e
s
s
t
h
a
n
)
⼩
于
等
于
:
lt (less than) ⼩于等于:
lt(lessthan)⼩于等于:lte (less than equal)
⼤于:
g
t
(
g
r
e
a
t
e
r
t
h
a
n
)
⼤
于
等
于
:
gt (greater than) ⼤于等于:
gt(greaterthan)⼤于等于:gte
不等于:$ne
例如:
查询年龄大于18的所有学生
db.stu.find({age:{$gte:18}})
5.3 逻辑运算符
逻辑运算符主要指与、或逻辑
and:在json中写多个条件即可
查询年龄⼤于或等于18, 并且性别为true的学⽣
db.stu.find({age:{KaTeX parse error: Expected 'EOF', got '}' at position 7: gte:18}̲,gender:true}) …or, 值为数组, 数组中每个元素为json
查询年龄⼤于18, 或性别为false的学⽣
db.stu.find({KaTeX parse error: Expected '}', got 'EOF' at end of input: or:[{age:{gt:18}},{gender:false}]})
查询年龄⼤于18或性别为男⽣, 并且姓名是郭靖
db.stu.find({KaTeX parse error: Expected '}', got 'EOF' at end of input: or:[{age:{gte:18}},{gender:true}],name:‘gj’})
5.4 范围运算符
使⽤$in, $nin 判断数据是否在某个数组内
查询年龄为18、 28的学⽣
db.stu.find({age:{KaTeX parse error: Expected 'EOF', got '}' at position 14: in:[18,28,38]}̲}) 5.5 ⽀持正则表达式 …regex编写正则表达式
查询sku以abc开头的数据
db.products.find({sku:/^abc/})
查询sku以789结尾的数据
db.products.find({sku:{
r
e
g
e
x
:
′
789
regex:'789
regex:′789’}})
{ “_id” : 100, “sku” : “abc123”, “description” : “Single line description.” }
{ “_id” : 101, “sku” : “abc789”, “description” : “First line\nSecond line” }
{ “_id” : 102, “sku” : “xyz456”, “description” : “Many spaces before line” }
{ “_id” : 103, “sku” : “xyz789”, “description” : “Multiple\nline description” }
5.6 skip和limit
⽅法limit(): ⽤于读取指定数量的⽂档
db.集合名称.find().limit(NUMBER)
查询2条学⽣信息
db.stu.find().limit(2)
⽅法skip(): ⽤于跳过指定数量的⽂档
db.集合名称.find().skip(NUMBER)
db.stu.find().skip(2)
同时使用
db.stu.find().limit(4).skip(5)
或
db.stu.find().skip(5).limit(4)
注意:先使用skip在使用limit的效率要高于前者
5.7 自定义查询*
由于mongo的shell是一个js的执行环境 使⽤$where后⾯写⼀个函数, 返回满⾜条件的数据
查询年龄⼤于30的学⽣
db.stu.find({
$where:function() {
return this.age>30;}
})
5.8 投影
在查询到的返回结果中, 只选择必要的字段
命令:db.集合名称.find({},{字段名称:1,…})
参数为字段与值, 值为1表示显示, 值为0不显 特别注意: 对于_id列默认是显示的, 如果不显示需要明确设置为0
db.stu.find({},{_id:0,name:1,gender:1})
5.9 排序
⽅法sort(), ⽤于对 集进⾏排序
命令:db.集合名称.find().sort({字段:1,…})
参数1为升序排列 参数-1为降序排列
根据性别降序, 再根据年龄升序
db.stu.find().sort({gender:-1,age:1})
5.10 统计个数
⽅法count()⽤于统计结果集中⽂档条数
命令:db.集合名称.find({条件}).count() 命令:db.集合名称.count({条件})
db.stu.find({gender:true}).count()
db.stu.count({age:{$gt:20},gender:true})
5.11 消除重复
⽅法distinct()对数据进⾏去重
命令:db.集合名称.distinct(‘去重字段’,{条件})
db.stu.distinct(‘hometown’,{age:{$gt:18}})
- mongodb的常用管道和表达式
知识点:
掌握mongodb中管道的语法
掌握mongodb中管道命令
2.1 常用管道命令
在mongodb中,⽂档处理完毕后, 通过管道进⾏下⼀次处理 常用管道命令如下:
$group: 将集合中的⽂档分组, 可⽤于统计结果
$match: 过滤数据, 只输出符合条件的⽂档
$project: 修改输⼊⽂档的结构, 如重命名、 增加、 删除字段、 创建计算结果
$sort: 将输⼊⽂档排序后输出
$limit: 限制聚合管道返回的⽂档数
s
k
i
p
:
跳
过
指
定
数
量
的
⽂
档
,
并
返
回
余
下
的
⽂
档
2.2
常
用
表
达
式
表
达
式
:
处
理
输
⼊
⽂
档
并
输
出
语
法
:
表
达
式
:
′
skip: 跳过指定数量的⽂档, 并返回余下的⽂档 2.2 常用表达式 表达式:处理输⼊⽂档并输出 语法:表达式:'
skip:跳过指定数量的⽂档,并返回余下的⽂档2.2常用表达式表达式:处理输⼊⽂档并输出语法:表达式:′列名’ 常⽤表达式:
$sum: 计算总和, $sum:1 表示以⼀倍计数
$avg: 计算平均值
$min: 获取最⼩值
$max: 获取最⼤值
$push: 在结果⽂档中插⼊值到⼀个数组中
mongodb创建索引;
加快查询速度;
进行数据的去重;
mongodb创建简单的索引方法
语法:
db.集合.ensureIndex({属性:1}),1表示升序, -1表示降序
db.集合.createIndex({属性:1})
上面两个命令效果等价
具体操作:db.db_name.ensureIndex({name:1})
添加唯一索引的语法:
db.collection_name.ensureIndex({“name”:1},{“unique”:true})
删除索引
语法:db.t1.dropIndex({‘索引名称’:1})
建立复合索引
在进行数据去重的时候,可能用一个字段来保证数据的唯一性,这个时候可以考虑建立复合索引来实现。
例如:抓全贴吧信息,如果把帖子的名字作为唯一索引对数据进行去重是不可取的,因为可能有很多帖子名字相同
建立复合索引的语法:db.collection_name.ensureIndex({字段1:1,字段2:1})
python与 mongodb交互:
from pymongo import MongoClient
client = MongoClient(host,port)
collection = client[db名][集合名]
添加一条数据
ret = collection.insert_one({“name”:“test10010”,“age”:33})
print(ret)
添加多条数据
item_list = [{“name”:“test1000{}”.format(i)} for i in range(10)]
insert_many接收一个列表,列表中为所有需要插入的字典
t = collection.insert_many(item_list)
查找一条数据
find_one查找并且返回一个结果,接收一个字典形式的条件
t = collection.find_one({“name”:“test10005”})
print(t)
查找全部数据
结果是一个Cursor游标对象,是一个可迭代对象,可以类似读文件的指针,但是只能够进行一次读取
find返回所有满足条件的结果,如果条件为空,则返回数据库的所有
t = collection.find({“name”:“test10005”})
#结果是一个Cursor游标对象,是一个可迭代对象,可以类似读文件的指针,
for i in t:
print(i)
for i in t: #此时t中没有内容
print(i)
更新一条数据 注意使用$set命令
update_one更新一条数据
collection.update_one({“name”:“test10005”},{"$set":{“name”:“new_test10005”}})
更行全部数据
update_one更新全部数据
collection.update_many({“name”:“test10005”},{"$set":{“name”:“new_test10005”}})
删除一条数据
delete_one删除一条数据
collection.delete_one({“name”:“test10010”})
删除全部数据
delete_may删除所有满足条件的数据
collection.delete_many({“name”:“test10010”})