MapReduce和关系型数据库的对比以及如何理解规范性数据需要非本地操作

最新推荐文章于 2023-12-11 08:00:00 发布

wf1982

最新推荐文章于 2023-12-11 08:00:00 发布

阅读量2.1k

点赞数

分类专栏：云计算文章标签： mapreduce 数据库算法数据结构磁盘 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wf1982/article/details/6160965

版权

云计算专栏收录该内容

42 篇文章 0 订阅

订阅专栏

根据Hadoop权威指南一书，总结了

MapReduce 与关系型数据库的区别：

1 数据访问模式受限于磁盘寻址，磁盘寻址时间提高速度远远小于数据传输速率提高速度。对于超大规模数据（以PB为单位）必须考虑使用其他方式。关系型数据库使用B树结构进行数据的更新查询操作，对于最大到GB的数据量，一般相对数据量较小，效果很好。但是大数据量时，B树使用排序/合并方式重建数据库以更新数据的效率远远低于MapReduce。

2 MapReduce是关系型数据库的补充。MapReduce更适合批量更新大批量的数据集，一次写入多次读取。RDBMS更适合点查询和更新，这时的数据集已经被索引以提供低延迟的检索和短时间的少量数据更新，适合多次读写。

3 数据结构不同。关系型数据使用的是结构化数据，在数据库阶段按具体类型处理数据。MapReduce数据模式半结构化或非结构化，数据处理是在Map reduce操作中由用户实现。

关系型数据的规范性非常重要，保持数据的完整性，一致性。这样的规范限制了数据必须在非本地操作。而MapReduce最终要是让数据在靠近数据的地方处理。

4 伸缩性。关系型数据库对数据处理是非线性。MapReduce线性。

其中有一句话难以理解，涉及到了关系型数据和MapReduce处理数据方式不同的根本原因。

原文：

Relational data is often normalized to retain its integrity, and remove redundancy.

Normalization poses problems for MapReduce, since it makes reading a record a nonlocal

operation, and one of the central assumptions that MapReduce makes is that it

is possible to perform (high-speed) streaming reads and writes

翻译后：

关系型数据往往是规范的，以保持其完整性和删除冗余。规范化为MapReduce带来

问题，因为它使读取记录成为一个非本地操作，并且MapReduce的核心假设之一就是，

它可以进行(高速)流的读写。

这段话难以理解是在为什么规范化使得读取操作必须是非本地操作。这句话怎么理解呢？

我的理解：

这个本地操作应该是指的数据传输还是算法传输， mapreduce是将算法传输到hdfs datanode上以便数据在本地执行。而关系型数据库必须要通过 connection 将数据传输到算法所在容器执行。而这个的根本原因是数据规范性。

数据规范性，为了保证约束（完整性、一致性）正常，数据就需要传输到数据库容器外执行，数据处理逻辑完成后，由事务提交到数据库，从而严格保证数据的规范。

请教各位大牛，这样理解是否正确？

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。