hadoop - chapter 1

一.分布式

1.分布式是指将不同的业务分布在不同的地方。 而集群指的是将几台服务器集中在一起,实现同一业务。

2.分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。

二.cap理论

C(Consistency一致性):所有的节点上的数据时刻保持同步

A(Availability可用性):每个请求都能接受到一个响应,无论响应成功或失败

P(Partition tolerance 分区容错):系统应该能持续提供服务,即使系统内部有消息丢失(分区)

三.hadoop的基本组件

1.hdfs(hadoop distrubute file system)->分布式文件系统 ,它采用主从结构,Namenode属于主段,Datanode属于从端

2.mapreduce->MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。

3.Hive->是一个分布式数据仓库,管理存储在hdfs的数据,提供了基于sql的查询语言。

4.sqoop->完成hdfs和关系型数据库中的数据相互转移的工具

5.Hbase->分布式列数据库

6.Mahout ->机器学习和数据挖掘的一个分布式框架

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值