2020-11-10

最新推荐文章于 2024-09-14 22:07:12 发布

数据钻研者

最新推荐文章于 2024-09-14 22:07:12 发布

阅读量144

点赞数

分类专栏：大数据文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/weixin_51987447/article/details/109597593

版权

大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

                                                                                                           大数据生态系统

一.认识Hadoop

    1.概念：是一个由Apache基金会所开发的分布式系统基础架构，是一个用java写好的软件。
    2.三个组件：包括HDFS（大数据存储）、MapReduce（大数据分析）、HBase（大数据管理）。
3.Hadoop生态系统最核心的模块是HDFS和MapReduce

二.Hadoop生态系统

1.HDFS（分布式文件系统）:是指被设计成适合运行在通用硬件上的分布式文件系统,有着高容错性、高吞吐量等特点。
    2.MapReduce（离线计算）：是一种编程模型，用于大规模数据集（大于1TB）的并行运算。有着分布可靠的特点，应用于大规模的算法图形处理、文字处理。
    3.HBase（分布式数据库）：是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。
    4.Ambari（安装部署工具）：是一种基于Web的工具，支持Apache Hadoo p集群的供应、管理和监控。
    5.Oozie（作业流调度系统）：是一个开源的工作流和协作服务引擎，基于 Apache Hadoop 的数据处理任务。
    6.ZooKeeper(分布式协调服务):是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。
    7.YARN（资源调度管理框架）：是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了    巨大好处。
    8.Tez:是一个apache的开源项目，意在构建一个应用框架，能通过复杂任务的DAG来处理数据。它市基于当前的hadoop yarn之上，换句话就是yarn为其提供资源。
9.Spark：内存计算，是专为大规模数据处理而设计的快速通用的计算引擎。它具有易用性、通用性和更快的计算速度。
10. hive：是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
11.pig：是一种数据流语言和运行环境，用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。
12.Flume：是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统
13.Sqoop：是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。