大数据生态系统
一.认识Hadoop
1.概念:是一个由Apache基金会所开发的分布式系统基础架构,是一个用java写好的软件。
2.三个组件:包括HDFS(大数据存储)、MapReduce(大数据分析)、HBase(大数据管理)。
3.Hadoop生态系统最核心的模块是HDFS和MapReduce
二.Hadoop生态系统
1.HDFS(分布式文件系统):是指被设计成适合运行在通用硬件上的分布式文件系统,有着高容错性、高吞吐量等特点。
2.MapReduce(离线计算):是一种编程模型,用于大规模数据集(大于1TB)的并行运算。有着分布可靠的特点,应用于大规模的算法图形处理、文字处理。
3.HBase(分布式数据库):是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。
4.Ambari(安装部署工具):是一种基于Web的工具,支持Apache Hadoo p集群的供应、管理和监控。
5.Oozie(作业流调度系统):是一个开源的工作流和协作服务引擎,基于 Apache Hadoop 的数据处理任务。
6.ZooKeeper(分布式协调服务):是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。
7.YARN(资源调度管理框架):是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了 巨大好处。
8.Tez:是一个apache的开源项目,意在构建一个应用框架,能通过复杂任务的DAG来处理数据。它市基于当前的hadoop yarn之上,换句话就是yarn为其提供资源。
9.Spark:内存计算,是专为大规模数据处理而设计的快速通用的计算引擎。它具有易用性、通用性和更快的计算速度。
10. hive:是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
11.pig:是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。
12.Flume:是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
13.Sqoop:是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
2020-11-10
最新推荐文章于 2024-09-14 22:07:12 发布