大数据技术基础知识总结四

最新推荐文章于 2022-07-19 20:32:26 发布

Lw中

最新推荐文章于 2022-07-19 20:32:26 发布

阅读量199

点赞数 1

分类专栏：大数据技术基础文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/weixin_43894879/article/details/123933090

版权

大数据技术基础专栏收录该内容

14 篇文章 2 订阅

订阅专栏

介绍
- 是一个结合了分布式理论与具体的工程开发的整体架构，使用大量的普通计算机处理大规模数据的存储和分析
架构
- HDFS（分布式文件系统）
  - 解决文件的底层存储问题
  - 还具备非常强大的容错性能
- MapReduce（分布式计算框架）
  - 解决了分布式计算的问题—包括其中的运算逻辑与数据依赖
    - map 函数用于组织和分割数据；
    - reduce 函数主要负责在分布式节点上的数据运算
- Hive（数仓系统）
  - 数据仓库工具，可以将结构化的数据文件映射成一个数据表
  - 提供了一套Hive SQL实现 MapReduce 计算
  - Hive 也有一些不好用的地方，比如不能进行单条数据更新
- HBase（分布式数据库）
  - HBase 是一个分布式高并发的K-V 数据库系统
  - 底层也是由 HDFS 来支撑
  - HBase 通过对存储内容的重新组织，克服了HDFS 对小文件处理困难的问题，实现了数据的实时操作
- Yarn（资源调度和管理框架）
  - Hadoop 1.0 中是没有 Yarn 的
- ZooKeeper（分布式协作服务）
  - 最常用的场景是作为一个服务的注册管理中心。生产者把所提供的服务提交到 ZooKeeper 中，而消费者则去 ZooKeeper 中寻找自己需要的服务，从中获取生产者的信息，然后再去调用生产者的服务
  - 把控各种数据流转服务的中间环节，保障数据的一致性
Hadoop 的优点
- 强大的数据存储和处理能力
- 隐藏了大量技术细节
- 良好的扩展能力
Hadoop 的缺点
- 实时性较差
- 学习难度较大
免费的 Hadoop 版本
- 一个是 Apache 版本，也就是最原始的发行版；
- 一个是 Cloudera 版本，简称 CDH；
- 还有一个 Hortonworks 版本，简称 HDP。