大数据技术基础知识总结四

  • 介绍
    • 是一个结合了分布式理论与具体的工程开发的整体架构,使用大量的普通计算机处理大规模数据的存储和分析
  • 架构
    • HDFS(分布式文件系统)
      • 解决文件的底层存储问题
      • 还具备非常强大的容错性能
    • MapReduce(分布式计算框架)
      • 解决了分布式计算的问题—包括其中的运算逻辑与数据依赖
        • map 函数用于组织和分割数据;
        • reduce 函数主要负责在分布式节点上的数据运算
    • Hive(数仓系统)
      • 数据仓库工具,可以将结构化的数据文件映射成一个数据表
      • 提供了一套Hive SQL实现 MapReduce 计算
      • Hive 也有一些不好用的地方,比如不能进行单条数据更新
    • HBase(分布式数据库)
      • HBase 是一个分布式高并发的K-V 数据库系统
      • 底层也是由 HDFS 来支撑
      • HBase 通过对存储内容的重新组织,克服了HDFS 对小文件处理困难的问题,实现了数据的实时操作
    • Yarn(资源调度和管理框架)
      • Hadoop 1.0 中是没有 Yarn 的
    • ZooKeeper(分布式协作服务)
      • 最常用的场景是作为一个服务的注册管理中心。生产者把所提供的服务提交到 ZooKeeper 中,而消费者则去 ZooKeeper 中寻找自己需要的服务,从中获取生产者的信息,然后再去调用生产者的服务
      • 把控各种数据流转服务的中间环节,保障数据的一致性
  • Hadoop 的优点
    • 强大的数据存储和处理能力
    • 隐藏了大量技术细节
    • 良好的扩展能力
  • Hadoop 的缺点
    • 实时性较差
    • 学习难度较大
  • 免费的 Hadoop 版本
    • 一个是 Apache 版本,也就是最原始的发行版;
    • 一个是 Cloudera 版本,简称 CDH;
    • 还有一个 Hortonworks 版本,简称 HDP。 
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lw中

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值