Hadoop简介与进程

一名初学袁

已于 2022-08-30 16:19:34 修改

阅读量2.6k

点赞数 2

文章标签： hadoop hdfs mapreduce

于 2022-08-30 16:18:53 首次发布

本文链接：https://blog.csdn.net/wt2337493578/article/details/126606722

版权

简介

Hadoop中的各个进程

简介

什么是Hadoop？
- 1.Hadoop是apache旗下的一套开源软件平台
- 2.Hadoop提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理
- 3.Hadoop的核心组件有
  - A.HDFS（分布式文件系统）
    - 对外部客户机而言，HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是 HDFS 的架构是基于一组特定的节点构建的，这是由它自身的特点决定的。这些节点包括 NameNode（仅一个），它在 HDFS 内部提供元数据服务；DataNode，它为 HDFS 提供存储块。
    - 元数据：又称中介数据、中继数据，为描述数据的数据，主要是描述数据属性的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
  - B.YARN（运算资源调度系统）
    - 是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
  - C.MAPREDUCE（分布式运算编程框架）
    - 最简单的 MapReduce应用程序至少包含 3 个部分：一个 Map 函数、一个 Reduce 函数和一个 main 函数。main 函数将作业控制和文件输入/输出结合起来。
    - MapReduce 本身就是用于并行处理大数据集的软件框架。MapReduce 的根源是函数性编程中的 map 和 reduce 函数。它由两个可能包含有许多实例（许多 Map 和 Reduce）的操作组成。Map 函数接受一组数据并将其转换为一个键/值对列表，输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表，然后根据它们的键（为每个键生成一个键/值对）缩小键/值对列表。
    - 例如：假设输入域是 one small step for man,one giant leap for mankind。在这个域上运行 Map 函数将得出以下的键/值对列表：（one,1）（small,1） (step,1） (for,1） (man,1）(one,1） (giant,1） (leap,1） (for,1） (mankind,1）
    - 如果对这个键/值对列表应用 Reduce 函数，将得到以下一组键/值对：
    - （one,2） (small,1） (step,1） (for,2&#x