《Hadoop生态系统》(O'REILLY )(二)

本书第二章,是讲的数据库及数据管理。
首先,数据太大, 依靠关系型数据库,不现实,这个都知道,这个章节讲的技术,都是基于non-SQL的。
其中NoSql的数据库,有以下几类:
-列式存储
-文档存储
-键值/元祖存储
-图数据库
-多模型数据库
-对象数据库
-网络和云数据库
-多值数据库
-表格存储
-其他
放心,我就熟悉一个KEY/VALUE和文档存储。。。。

第二章 数据库及数据管理

2.1 Cassandra

用途介绍的是:键值存储
我的理解:干脆利落,NoSQL,键值存储。和HBASE不同,这是全包容系统,就是不需要额外的环境
我的感觉:名字不熟,不知道是不是要学的。

2.2 HBASE

用途介绍的是:可随机访问的NoSQL数据库
我的理解:这个速度比MapReduce快,虽然有使用限制,我觉得如果把MapReduce当做内存,这个HBASE应该是1级缓存那个级别?
我的感觉:听得最多的,应该重要

2.3 Accumulo

用途介绍的是:基于cell-level安全的名-值数据库
我的理解:这个是什么鬼翻译?这个和HBASE用途差不多,区别是安全上吧,我看这个还有标签系统
我的感觉:名字不熟,应该有用

2.4 Memcached

用途介绍的是:在内存上缓存
我的理解:这个解释很清晰,这就是确确实实的缓存,把各个节点需要的东西,全部放在这个内存池里面
我的感觉:这个选择不整合,应该是特定场景用的

2.5 BLUR

用途介绍的是:文档仓库
我的理解:这个例子是说,在你需要查找匹配的条件很多的情况下,推荐使用的,简而言之来讲就是更自由的添加限制。
我的感觉:看名字不熟,就想跳过

2.6 SOLR

用途介绍的是:文档仓库
我的理解:和BULR类似
我的感觉:看名字不熟,就想再跳过

2.7 MongoDB

用途介绍的是:JSON面向文档型数据库
我的理解:这可能是我最期待的,在Hadoop集群上有大量JSON文档时,用这个来管理,很强
我的感觉:这可能是我所已知的数据库里唯一能用的,是我尊严最后一道牌面

2.8 Hive

用途介绍的是:数据交互
我的理解:确确实实是用来和数据库交互的,方便了SQL操作吧,这是作用。
我的感觉:应该要学

2.9 Spark SQL

用途介绍的是:SQL访问Hadoop上的数据
我的理解:和Hive类似,但是说在Spark上有更厉害的支持,准确的说,Hive是它功能的超集
我的感觉:看名字有点酷,可以掌握?

2.10 Giraph

用途介绍的是:图表数据库
我的理解:将关系变成图,我已经好久没遇到过这玩意儿了。。。
我的感觉:帅!但是我觉得可以不忙看。。。

第二章差不多就是这些,我列出来也是一个了解,这本书既然是概述,最重要的是开阔视野。
第三章讲的是序列化

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值