大数据学习笔记-20231124

大数据基本概念

  • 一切皆是数据,大数据主要用来解决数据的储存和计算

1. 大数据的特点

  • 大:数据量
  • 多:数据种类
  • 值:价值密度
  • 快:增长速度
  • 信:准确度可可信度

2. 数据类型

  • 结构化
  • 非结构化
  • 半结构化(有结构,但不是很多,类似于 xml)

hadoop

1. 介绍

  • 是开发和运行大规模数据的软件平台
  • 模块
    • HDFS:分布式存储框架,实现数据的海量储存
    • YARN:统一的资源调度平台
    • MAPREDUCE:实现分布式计算的框架

2. 特性

数据不容易丢失,有副本机制

3. 机构说明

a. 元数据

解释:描述数据的数据

b. Hadoop 2.X架构

  • HDFS:分布式文件储存系统
    • namenode:hdfs的主节点,可以有多个,但是最多只有两个
      • 管理整个HDFS集群
      • 对元数据进行管理操作
    • datanode:HDFS的从节点,可以有多个
      • 负责数据的最终储存
      • 负责数据的读写操作
    • secondarynamenode:辅助节点
      • 辅助 namenode管理元数据
    • 当对HDFS部署高可用的时候,此时已经没有 secondary name node,取而代之的是 journalnode
      • 辅助管理 namenode的元数据
      • 接受 active节点的namenode传递过来的元数据信息
      • 让 standby状态的 namenode装变为从 journal node中拉取最新的元数据信息,确保两个 namenode的元数据信息一致
  • YARN:分布式计算框架
    • resource Manager:YARN平台的主节点,可以有多个
      • 负责接受任务
      • 负责为一个任务在nodeManager上启动一个application master
      • 负责资源的分配
    • application :只是一个进程,
      • 对任务进行分配,并且想 resource Manager申请资源
    • nodeManager:YARN的从节点
      • 负责接受 application 分配过来的任务,最终执行这些任务
  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值