Sql的发展历程
单机mysql的年代
在很早的年代,一个网站的访问量不会太大,单个数据库(Mysql)完全够用
瓶颈:
①数据量太大时一个机器放不下
②数据超过300万,需要建立索引,机器内存也放不下
③访问量比较大(读写混合),服务器承受不了,性能差
Memcached(缓存)+ MYSQL + 垂直拆分(读写分离)
读操作比较多,为了减轻数据库的压力,我们可以使用缓存来保证效率
发展过程:
优化数据结构和索引——》文件缓存(IO)——》Memcached
分库分表 + 水平拆分 + mysql集群
MyISAM:表锁,效率低,高并发下出现锁问题——》Innodb:行锁。
早些年通过分库分表来解决写的压力(Mysql集群)
现今
Mysql等关系型数据库就不够用了,有的使用mysql存储博客、图片等大文件,造成了数据库表很大,效率就低了,如果有一种可以专门处理这类数据的数据库,Mysql的压力就小了(开始研究),在大数据IO下,表结构几乎无法修改
目前一个基本的互联网项目
什么是NoSql?
NoSql = Not Only Sql(不仅仅是sql),泛指非关系型数据库
(关系型数据库:表格(行和列))
随着Web2.0互联网的诞生,传统的关系型数据库很难对付web2.0时代,尤其是超大规模的高并发的社区,暴露出来很多难以克服的问题,NoSQL在当今大数据的情况下发展十分迅速,Redis是发展最快的
用户的个人信息,社交网络,地理位置,用户自己产生的数据等类型的存储不需要一个固定的格式,不需要多余的操作就可以横向拓展(Map<String,Object>)
为什么要用NoSql?
用户的个人信息,社交网络,地理位置,用户自己产生的数据,用户的日志爆发增长,此时无法使用关系型数据库,这时我们就要用Nosql来处理以上的情况
NoSql的特点
①方便扩展,数据之间没有关系,很好扩展
②大数据量高性能,Redis一秒写8万次,读取11万次,NoSql的缓存记录级的,是一种细粒度的缓存,性能高
③数据类型是多样型的,不需要事先设计数据库,随取随用,对于关系型数据库,如果是数据库量十分大的表,就很难设计了
传统RDBMS和NoSql
传统的RDBMS:
- 结构化组织
- SQL
- 数据和关系都存储在单独的表中
- 操作增删改查,数据定义语言
- 严格的一致性
- 基础的事务操作
- 。。。
NoSql:
-
不仅仅是数据
-
没有固定的查询语言
-
键值对存储,列存储,文档存储,图形数据库
-
最终一致性
-
CAP定理和BASE(异地多活)
-
高性能,高可用,高可扩展
-
。。。。
3V+3高
大数据时代的3V:主要是描述问题的
- 海量Volume
- 多样Variety
- 实时Velocity
大数据时代的3高:主要是对程序的要求
- 高并发
- 高可拓展
- 高性能
在公司中的实践:NoSql+RDBMS一起使用
阿里巴巴演进分析
# 商品的基本信息
- 名称、价格、商家信息,关系型数据库就可以解决(MYSQL/Oracle)
- 淘宝内部的MYSQL不是大家用的MYSQL
# 商品的描述、评论(文字较多)
- 文档型数据库,MongDB
# 图片
- 分布式文件系统 FastDFS、淘宝的TFS、Google的GFS、Hadoop的HDFS、阿里云的OSS
# 商品的关键字(搜索)
- 搜索引擎,solr、elasticsearch、淘宝用的ISerach
# 商品热门波段信息
- 内存数据库,Redis、Tair、Memache...
# 商品的交易、外部的支付接口
- 三分应用
大型互联网应用问题:
- 数据类型太多
- 数据源繁多。经常重构
- 数据要改造,大面积改造
解决:
NoSql的四大分类
KV键值对:
- 新浪:Redis
- 美团:Redis+Tair
- 阿里、百度:Redis、mecache
文档型数据库(bson格式和json一样):
- MongoDB(一般必须掌握)
- MongoDB是一个基于分布式文件存储的数据库,C++编写,主要用来处理大量文档
- MongoDB是一个介于关系型数据库和非关系型数据库中间的产品,MongoDB是非关系型数据库中功能最丰富,最像关系型数据库的
- ConthDB
列存储数据库:
- HBase
- 分布式文件系统
图关系型数据库:
- 不是用来放图形的,放的是关系,比如:朋友圈社交网络,广告推荐
- Neo4j、InfoGrid
四者对比: