Nosql概述
(1)单机Mysql的时代
(2)Memcached(缓存)+MySQL+垂直拆分
网站80%的情况都是在读取,每次都要去查询数据库的话就会很麻烦,所以说我们希望减轻数据库的压力,我们可以使用缓存来
保证效率。
发展过程:优化数据结构和索引-->文件缓存(IO)-->Memcached(当时最热门的技术)
(3)分库分表+水平拆分+MySQL集群
技术和业务在发展的同时,对人的要求也越来越高。
本质:数据库(读,写)
早些年MyISAM;表锁,十分影响效率,高并发下就会出现严重的锁问题
转战Innodb:行锁
开始使用分库分表来解决写的压力!
Mysql的集群
NoSQL=Not Only SQL(不仅仅是SQL)
泛指非关系型数据库的,随着Web2.0互联网的诞生,传统的关系型数据库很难对付Web2.0时代,尤其是超大规模的高并发的社区,
暴露出来很多难以克服的问题,NoSQL在当今大数据环境下发展的十分迅速,Redis是发展最快的,而且是我们当下必须要掌握的
一个技术。
很多的数据类型用户的个人信息,社交网络,地理位置,这些数据类型的存储不需要一个固定的格式,不需要多余的操作就可以
横向扩展的!Map<String,Object>使用键值对来控制。
Nosql数据类型
NoSQL特点:
解耦:
1.方便扩展(数据之间没有关系,很好扩展)
2.大数据量高性能(Redis一秒写8万次,读取11万,NoSQL的缓存记录级,是一种细粒度的缓存,性能会比较高)
3.数据类型是多样性的!(不需要事先设计数据库!随取随用!如果是数据量十分大的表,很多人就无法设计了!)
4.传统RDBMS和NoSQL
传统的RDBMS
-结构化组织
-SQL
-数据和关系都存在单独的表中
-操作,定义数据语言
-严格的一致性
-基础的事务
-......
NoSQL
-不仅仅是数据
-没有固定的查询语言
-键值对存储,列存储,文档存储,图像数据库(社交关系)
-最终一致性
-CAP定理和BASE(异地多活)
-高性能,高可用,高可扩
-......
了解:3V+3高
大数据时代的3V:主要是描述问题的
1.海量Volume
2.多样Variety
3.实时Velocity
大数据时代的3高:
1.高并发
2.高可扩
3.高性能
Nosql四大分类
KV键值对
-
新浪:Redis
-
美团:Redis+Tair
-
阿里,百度:Redis+memecache
文档行数据库(bson 和json一样):
- MongoDB(一般需要掌握)
(1)MongoDB是一个基于分布式文件存储的数据库,C++编写,主要用于处理大量的文档。
(2)MongoDB是一个介于关系型数据库和非关系型数据库中间的产品,MongoDB是非关系型数据库中功能最丰富,最像关系型数据库的!
- ConthDB
列存储数据库
-
HBase
-
分布式文件系统
图关系数据库
- 它不是存图形,放的是关系,比如:朋友圈社交网络,广告推荐。
- Neo4j,InfoGrid
分类 | Examples举例 | 典型应用场景 | 数据模型 | 优点 | 缺点 |
---|---|---|---|---|---|
键值(key-value)[3] | Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB | 内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。[3] | Key 指向 Value 的键值对,通常用hash table来实现[3] | 查找速度快 | 数据无结构化,通常只被当作字符串或者二进制数据[3] |
列存储数据库[3] | Cassandra, HBase, Riak | 分布式的文件系统 | 以列簇式存储,将同一列数据存在一起 | 查找速度快,可扩展性强,更容易进行分布式扩展 | 功能相对局限 |
文档型数据库[3] | CouchDB, MongoDb | Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容) | Key-Value对应的键值对,Value为结构化数据 | 数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构 | 查询性能不高,而且缺乏统一的查询语法。 |
对,Value为结构化数据 | 数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构 | 查询性能不高,而且缺乏统一的查询语法。 | |||
图形(Graph)数据库[3] | Neo4J, InfoGrid, Infinite Graph | 社交网络,推荐系统等。专注于构建关系图谱 | 图结构 | 利用图结构相关算法。比如最短路径寻址,N度关系查找等 | 很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。[3] |