大数据专用名词解释

最新推荐文章于 2023-05-22 14:29:09 发布

雨中禁火

最新推荐文章于 2023-05-22 14:29:09 发布

阅读量716

点赞数

分类专栏：大数据文章标签：大数据

本文链接：https://blog.csdn.net/weixin_57551874/article/details/116241920

版权

大数据专栏收录该内容

23 篇文章 0 订阅

订阅专栏

常用的数据采集框架：
- sqoop： 
	用于RDBMS与HDFS之间数据导入与导出
- flume： 
	采集日志文件数据，动态采集日志文件，数据流 flume采集到的数据，一份给HDFS，用于做离线分析；一份给Kafka，实时处理
- kafka: 
	主要用于实时的数据流处理 flume与kafka都有类似消息队列的机制，来缓存大数据环境处理不了的数据

HDFS：
	分布式文件系统

MapReduce：
	分布式计算系统

Yarn：
	Hadoop2.0版本的资源调度的框架。
	是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。

Zookeeper：
	分布式开源协调服务框架。
	一个面向分布式应用程序的高性能协调服务，是Hadoop和Hbase的重要组件。它是一个为分布式 应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

Hbase：
	是一个可扩展的分布式数据库，支持大型表格的结构化数据存储。HBase是Apache的Hadoop项目的子项目。
	Hbase不同于一般的关系型数据库：
		它是一个适合非结构化数据存储的数据库。
		另一个不同的是：Hbase基于列，而不是基于行的模式。

Hive：
	数据仓库基础架构，提供数据汇总和临时查询，可以将结构化的数据文件映射为一张数据库表， 并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。Hive提供的是一种 结构化数据的机制，定义了类似于传统关系数据库中的类SQL语言：Hive QL，通过该查询语言， 数据分析人员可以很方便地运行数据分析 业务。

Spark：
 	Hadoop数据的快速和通用计算引擎。 Spark提供了一个简单而富有表现力的编程模型，支持广 泛的应用程序，包括ETL，机器学习，流处理和图计算。

Sqoop(数据ETL/同步工具）：
	Sqoop是SQL-to-Hadoop的缩写，主要用于传统数据库和Hadoop之前传输数据。数据的导入和 导出本质上是Mapreduce程序，充分利用了MR的并行化和容错性。

Flume（日志收集工具）：
Cloudera开源的日志收集系统，具有分布式、高可靠、高容错、易于定制和扩展的特点。它将 数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源 支持在Flume中定制数据发送方，从而支持收集各种不同协议数据。同时，Flume数据流提供对日 志数据进行简单处理的能力，如过滤、格式转换等。

 Kafka（分布式消息队列）：
 	Kafka是Linkedin于2010年12月份开源的消息系统，它主要用于处理活跃的流式数据。这些数 据包括网站的pv、用户访问了什么内容，搜索了什么内容等。这些数据通常以日志的形式记录下 来，然后每隔一段时间进行一次统计处理。

Ambari ：
	用于供应，管理和监控Apache Hadoop集群的基于Web的工具。Ambari目前已支持大多数 Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。 Ambari还提供了一个用于查 看集群健康状况的仪表板，例如热图以及可视化查看MapReduce，Pig和Hive应用程序的功能以及 用于诊断其性能特征的功能，以方便用户使用。

Avro：
	数据序列化系统。可以将数据结构或者对象转换成便于存储和传输的格式，其设计目标是用于 支持数据密集型应用，适合大规模数据的存储与交换。Avro提供了丰富的数据结构类型、快速可压 缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC和简单动态语言集成等功能。

Cassandra：
	可扩展的多主数据库，没有单点故障。是一套开源分布式NoSQL数据库系统。

 Chukwa：
 	于管理大型分布式系统的数据收集系统（2000+以上的节点, 系统每天产生的监控数据量在T级 别）。它构建在Hadoop的HDFS和MapReduce基础之上，继承了Hadoop的可伸缩性和鲁棒性。 Chukwa包含一个强大和灵活的工具集，提供了数据的生成、收集、排序、去重、分析和展示等一 系列功能，是Hadoop使用者、集群运营人员和管理人员的必备工具。

Mahout：
	Apache旗下的一个开源项目，可扩展的机器学习和数据挖掘库

Pig：
	用于并行计算的高级数据流语言和执行框架。它简化了使用Hadoop进行数据分析的要求，提供了一个高层次的、面向领域的抽象语言：Pig Latin。

Tez：
	一个基于Hadoop YARN的通用数据流编程框架，它提供了一个强大而灵活的引擎，可执行任意 DAG任务来处理批处理和交互式用例的数据Hado™生态系统中的Hive™，Pig™和其他框架以及其他 商业软件（例如ETL工具）正在采用Tez，以替代Hadoop™MapReduce作为底层执行引擎。

Oozie(工作流调度器)：
	一个可扩展的工作体系，集成于Hadoop的堆栈，用于协调多个MapReduce作业的执行。它能够 管理一个复杂的系统，基于外部事件来执行，外部事件包括数据的定时和数据的出现。

Pig(ad-hoc脚本）：
	由yahoo!开源，设计动机是提供一种基于MapReduce的ad-hoc(计算在query时发生)数据分析 工具,通常用于进行离线分析。它定义了一种数据流语言—Pig Latin，它是MapReduce编程的复杂 性的抽象,Pig平台包括运行环境和用于分析Hadoop数据集的脚本语言(Pig Latin)。

雨中禁火

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大数据专用名词解释

常用的数据采集框架：- sqoop：用于RDBMS与HDFS之间数据导入与导出- flume：采集日志文件数据，动态采集日志文件，数据流 flume采集到的数据，一份给HDFS，用于做离线分析；一份给Kafka，实时处理- kafka: 主要用于实时的数据流处理 flume与kafka都有类似消息队列的机制，来缓存大数据环境处理不了的数据HDFS：分布式文件系统MapReduce：分布式计算系统Yarn： Hadoop2.0版本的资源调度的框架。是Hadoop
复制链接

扫一扫

专栏目录