2020-11-10

                                                                                                               大数据生态系统



一.认识Hadoop
   
    1.概念:是一个由Apache基金会所开发的分布式系统基础架构,是一个用java写好的软件。
    2.三个组件:包括HDFS(大数据存储)、MapReduce(大数据分析)、HBase(大数据管理)。
    3.Hadoop生态系统最核心的模块是HDFS和MapReduce
 
二.Hadoop生态系统

    1.HDFS(分布式文件系统):是指被设计成适合运行在通用硬件上的分布式文件系统,有着高容错性、高吞吐量等特点。
    2.MapReduce(离线计算):是一种编程模型,用于大规模数据集(大于1TB)的并行运算。有着分布可靠的特点,应用于大规模的算法图形处理、文字处理。
    3.HBase(分布式数据库):是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。
    4.Ambari(安装部署工具):是一种基于Web的工具,支持Apache Hadoo p集群的供应、管理和监控。
    5.Oozie(作业流调度系统):是一个开源的工作流和协作服务引擎,基于 Apache Hadoop 的数据处理任务。
    6.ZooKeeper(分布式协调服务):是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。
    7.YARN(资源调度管理框架):是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了        巨大好处。
    8.Tez:是一个apache的开源项目,意在构建一个应用框架,能通过复杂任务的DAG来处理数据。它市基于当前的hadoop yarn之上,换句话就是yarn为其提供资源。
    9.Spark:内存计算,是专为大规模数据处理而设计的快速通用的计算引擎。它具有易用性、通用性和更快的计算速度。
  10. hive:是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
  11.pig:是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。
  12.Flume:是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
  13.Sqoop:是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据钻研者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值