Hadoop学习

大数据4V:
  1. Volume(大量)

  2. Velocity(高速)

  3. Variety(多样)

  4. Value(低价值密度)

Hadoop相关
  • 分布式系统基础架构

  • 海量数据的存储和海量数据的分析计算

  • Hadoop生态圈(Hadoop的广义定义)

Hadoop三大发行版本
  • Apache:2006 年,最基础 / 最原始

  • Cloudera:2008年,CDH平台

  • Hortonworks:2011,HDP / CDP

Hadoop的优势:
  1. 高可靠性
  2. 高扩展性
  3. 高效性
  4. 高容错性
Hadoop3.x的组成架构:

在这里插入图片描述

HDFS架构

Hadoop Distributed File System(分布式文件系统)

NameNode:负责整个数据的存储情况的记录。存储文件的元数据,如文件名,文件目录结构,文件属性以及每一个文件的块列表和块所在的DataNode等。

DataNode:负责具体的存储数据。在本地文件系统存储文件块数据,以及块数据的校验和。

SecondaryNameNode(2NN):辅助NameNode存储数据。每个一段时间对NameNode元数据备份。

YARN架构

Yet Another Resource Negotiator(另一种资源协调者)

ResourceManager:整个集群资源的老大

NodeManager:单个节点服务器资源的老大

ApplicationMaster:单个任务运行的老大

Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU。网络等等。

注意

  • 客户端(Client:向RM提交任务)可以有多个
  • 集群上可以运行多个ApplicationMaster
  • 每个NodeManager上可以有多个Container
MapReduce架构
  • Map阶段:并行处理输入数据
  • Reduce阶段:对Map结果进行汇总
大数据技术生态体系
2021-04-18_105118

HDFS(分布式文件系统)

一种系统管理多个机器上的文件

HDFS只是分布式文件管理系统中的一种

适合一次写入,多次读出的场景

HDFS优点:
  1. 高容错性:
    1. 数据自动保存多个副本,通过增加副本的形式提高容错性;
    2. 某一个副本丢失后,可以自动恢复;
  2. 适合处理大数据:
    1. 数据规模:能够处理数据规模达到GB、TB,甚至是PB级别的数据;
    2. 文件规模:能够处理百万规模以上的文件数量,数量相当之大;
  3. 可构建在廉价的机器上,通过多副本机制提高可靠性;
HDFS缺点:
  1. 不适合低延时数据访问
  2. 无法高效地对大量小文件进行存储
  3. 不支持并发写入、文件随机修改(仅支持数据append,即追加)
HDFS组成架构:
  • NameNode:即Master,一个主管、管理者

    1. 管理HDFS的名称空间
    2. 配置副本策略
    3. 管理数据块(Block)映射信息
    4. 处理客户端读写请求
  • DataNode:即Slave,NameNode下达命令而DataNode执行实际的操作

    1. 存储实际的数据块
    2. 执行数据块的读/写操作
  • Client:客户端

    1. 文件切分
    2. 与NameNode交互,获取文件的位置信息
    3. 与DataNode交互,读取或者写入数据
    4. 提供一些命令来管理HDFS
    5. 通过一些命令来访问HDFS
  • Secondary NameNode:

    1. 辅助NameNode,分担其工作量
    2. 在紧急情况下可辅助恢复NameNode
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值