Hadoop生态圈简单介绍

最新推荐文章于 2024-05-12 14:08:14 发布

忙碌的影子

最新推荐文章于 2024-05-12 14:08:14 发布

阅读量1.2k

点赞数

分类专栏：大数据文章标签： Hadoop

本文链接：https://blog.csdn.net/zhangtao_123/article/details/80454904

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Hadoop生态地图

网络浏览器：可以理解为海量数据源。
Nutch：一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
HDFS:分布式文件系统（Hadoop Distributed File System）,设计有着为大数据处理“私人订制”的意思，提供高吞吐量的数据访问，非常适合大规模数据集上的应用。并且他是一个高度容错的系统，适合部署在廉价的机器上。
搜索出结果
MapReduce：核心成员，是一种编程模型，使得大规模数据可以并行计算。（并行一边看电影一边嗑瓜子，非并行，先刷牙，再洗脸）。简单的一句话解释MapReduce就是“任务的分解与结果的汇总”（举例洗牌）。HDFS为分布式计算存储提供了底层支持。
Flume: 日志数据采集框架，最早由Cloudera提供，目前是Apache下的一个孵化项目，Flume支持在日志系统中定制各类数据发送方，用于收集数据，可以将应用产生的数据存储到任何集中存储器中，比如HDFS,HBase。（Scribe是Facebook开源的日志收集系统
RDBMS: RDBMS即关系数据库管理系统(Relational Database Management System)，是将数据组织为相关的行和列的系统，而管理关系数据库的计算机软件就是关系数据库管理系统，常用的数据库软件有Oracle、SQL Server、MySQL 等。

Sqoop 是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(MySQL 、Oracle...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
Hive：基于Hadoop的一个数据仓库工具，数据存储在 HDFS 中，可以将结构化的数据文件映射为一张数据库表，并提供简单的类sql查询功能，称为 HQL。可以将SQL语句转换为MapReduce任务进行运行。可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。
数据分析产出图标信息
oozie: 一个工作流调度系统用来管理 Hadoop 作业。Oozie支持 Hadoop 中多种类型的作业(如 MapReduce Pig Hive Sqoop Distcp)和系统专有的任务(如 java程序 shell脚本)。
Hue： Hadoop User Experience开源的Apache Hadoop UI系统，使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job，执行Hive的SQL语句，浏览HBase数据库等等。
Avro: 支持高效、跨语言的RPC（远程过程调用Remote Procedure Call）及永久存储数据的序列化系统，负责数据的序列化。
Mahout: 提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。

忙碌的影子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop生态圈简单介绍

Hadoop生态地图网络浏览器：可以理解为海量数据源。 Nutch：一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 HDFS:分布式文件系统（Hadoop Distributed File System）,设计有着为大数据处理“私人订制”的意思，提供高吞吐量的数据访问，非常适合大规模数据集上的应用。并...
复制链接

扫一扫