初识hadoop

hadoop 提供了一个可靠的共享存储和分析系统,hdfs实现存储,mapreduce 实现分析处理,这两部分是它的核心。

mapreduce和关系型数据库的区别

 1. 关系型数据库处理GB级别数据大小的任务,mapreduce处理PB级别数据大小的任务
 2. 关系型数据库处理结构化的数据,mapreduce处理非结构化或者半结构化数据非常有效,因为处理数据时才对数据进行解释
 3. 关系型数据往往是规范的,以保证其数据的完整性不含冗余,然而mapreduce的核心假设之一就是它可以支持高速的流式读写操作。
 4. map函数和reduce函数不需要关注数据集及其所用集群大小,因此可以原封不动的应用到小规模或者大规模数据集上,如果输入的数据量是原来的两倍,其运行的时间也是以前的两倍,但如果集群上原来的两倍,作业的运行的速度仍然和以前一样快,关系型数据库的sql不具备这样的特性。

hadoop项目:

1.mapreduce:分布式数据处理模型和环境,运行于大型商用机集群
2.hdfs:分布式文件系统,运行于大型商用机集群
3.pig:一种数据流语言和运行环境,用以检索非常大的数据集,pig运行在mapreduce和hdfs的集群上。
4.hive:一个分布式,按列存储的数据仓库。hive管理hdfs中存储的数据,并提供基于sql的查询语言。(由运行时引擎翻译成mapreduce作业)用以查询数据。
5.hbase:一个分布式,按列存储的数据库,hbase使用hdfs作为底层存储,同时支持mapreduce的批量式计算和点查询(随机抽取)
6.zookeeper:一个分布式、可用性高的协调服务。其提供分布式锁之类的基本服务用于构建分布式应用(比较通俗的用法:用于调度,比如定时更新脚本,按天计算脚本等等)
7.sqoop:在数据库和hdfs之间高效传输的工具(用sqoop将关系型数据导入到hdfs中,也可以将hdfs中计算过的数据结果再sqoop到关系型数据库中)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值