初识hadoop

最新推荐文章于 2024-08-03 22:05:30 发布

zhangxiaomei1952

最新推荐文章于 2024-08-03 22:05:30 发布

阅读量262

点赞数

分类专栏： hadoop hive 文章标签： hadoop 数据库 mapreduce

本文链接：https://blog.csdn.net/zhangxiaomei1952/article/details/72614862

版权

hive 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

hadoop

2 篇文章 0 订阅

订阅专栏

hadoop 提供了一个可靠的共享存储和分析系统，hdfs实现存储，mapreduce 实现分析处理，这两部分是它的核心。

mapreduce和关系型数据库的区别

 1. 关系型数据库处理GB级别数据大小的任务，mapreduce处理PB级别数据大小的任务
 2. 关系型数据库处理结构化的数据，mapreduce处理非结构化或者半结构化数据非常有效，因为处理数据时才对数据进行解释
 3. 关系型数据往往是规范的，以保证其数据的完整性不含冗余，然而mapreduce的核心假设之一就是它可以支持高速的流式读写操作。
 4. map函数和reduce函数不需要关注数据集及其所用集群大小，因此可以原封不动的应用到小规模或者大规模数据集上，如果输入的数据量是原来的两倍，其运行的时间也是以前的两倍，但如果集群上原来的两倍，作业的运行的速度仍然和以前一样快，关系型数据库的sql不具备这样的特性。

hadoop项目：

1.mapreduce:分布式数据处理模型和环境，运行于大型商用机集群
2.hdfs:分布式文件系统，运行于大型商用机集群
3.pig:一种数据流语言和运行环境，用以检索非常大的数据集，pig运行在mapreduce和hdfs的集群上。
4.hive：一个分布式，按列存储的数据仓库。hive管理hdfs中存储的数据，并提供基于sql的查询语言。（由运行时引擎翻译成mapreduce作业）用以查询数据。
5.hbase:一个分布式，按列存储的数据库，hbase使用hdfs作为底层存储，同时支持mapreduce的批量式计算和点查询（随机抽取）
6.zookeeper:一个分布式、可用性高的协调服务。其提供分布式锁之类的基本服务用于构建分布式应用（比较通俗的用法：用于调度，比如定时更新脚本，按天计算脚本等等）
7.sqoop：在数据库和hdfs之间高效传输的工具（用sqoop将关系型数据导入到hdfs中，也可以将hdfs中计算过的数据结果再sqoop到关系型数据库中）

zhangxiaomei1952

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
初识hadoop

hadoop 提供了一个可靠的共享存储和分析系统，hdfs实现存储，mapreduce 实现分析处理，这两部分是它的核心。mapreduce和关系型数据库的区别 1. 关系型数据库处理GB级别数据大小的任务，mapreduce处理PB级别数据大小的任务 2. 关系型数据库处理结构化的数据，mapreduce处理非结构化或者半结构化数据非常有效，因为处理数据时才对数据进行解释 3. 关系型数据往往
复制链接

扫一扫

专栏目录