大数据基础——大数据处理架构Hadoop

一、Hadoop是什么?
(1)Hadoop Apache 软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
(2)H adoop 是基于 Java 语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中
(3) Hadoop 的核心是分布式文件系统 HDFS Hadoop Distributed File System )和 MapReduce
(4)Hadoop 被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力
(5)几乎所有主流厂商都围绕 Hadoop 提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持 Hadoop
 
二、Hadoop 在企业中的应用架构
三、 Hadoop 的项目结构不断丰富发展,已经形成一个丰富的 Hadoop 生态系统
 

组件

功能

HDFS

分布式文件系统

MapReduce

分布式并行编程模型

YARN

资源管理和调度器

Tez

运行在YARN之上的下一代Hadoop查询处理框架

Hive

Hadoop上的数据仓库

HBase

Hadoop上的非关系型的分布式数据库

Pig

一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin

Sqoop

用于在Hadoop与传统数据库之间进行数据传递

Oozie

Hadoop上的工作流管理系统

Zookeeper

提供分布式协调一致性服务

Storm

流计算框架

Flume

一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统

Ambari

Hadoop快速部署工具,支持Apache Hadoop集群的供应、管理和监控

 

Kafka

一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据

Spark

类似于Hadoop MapReduce的通用并行框架

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值