- 介绍
- 是一个结合了分布式理论与具体的工程开发的整体架构,使用大量的普通计算机处理大规模数据的存储和分析
- 架构
- HDFS(分布式文件系统)
- 解决文件的底层存储问题
- 还具备非常强大的容错性能
- MapReduce(分布式计算框架)
- 解决了分布式计算的问题—包括其中的运算逻辑与数据依赖
- map 函数用于组织和分割数据;
- reduce 函数主要负责在分布式节点上的数据运算
- 解决了分布式计算的问题—包括其中的运算逻辑与数据依赖
- Hive(数仓系统)
- 数据仓库工具,可以将结构化的数据文件映射成一个数据表
- 提供了一套Hive SQL实现 MapReduce 计算
- Hive 也有一些不好用的地方,比如不能进行单条数据更新
- HBase(分布式数据库)
- HBase 是一个分布式高并发的K-V 数据库系统
- 底层也是由 HDFS 来支撑
- HBase 通过对存储内容的重新组织,克服了HDFS 对小文件处理困难的问题,实现了数据的实时操作
- Yarn(资源调度和管理框架)
- Hadoop 1.0 中是没有 Yarn 的
- ZooKeeper(分布式协作服务)
- 最常用的场景是作为一个服务的注册管理中心。生产者把所提供的服务提交到 ZooKeeper 中,而消费者则去 ZooKeeper 中寻找自己需要的服务,从中获取生产者的信息,然后再去调用生产者的服务
- 把控各种数据流转服务的中间环节,保障数据的一致性
-
- Hadoop 的优点
- 强大的数据存储和处理能力
- 隐藏了大量技术细节
- 良好的扩展能力
- Hadoop 的缺点
- 实时性较差
- 学习难度较大
- 免费的 Hadoop 版本
- 一个是 Apache 版本,也就是最原始的发行版;
- 一个是 Cloudera 版本,简称 CDH;
- 还有一个 Hortonworks 版本,简称 HDP。
大数据技术基础知识总结四
最新推荐文章于 2022-07-19 20:32:26 发布