大数据技术入门之分布式处理、并行处理和MapReduce

最新推荐文章于 2023-01-09 09:22:07 发布

Go_Data__

最新推荐文章于 2023-01-09 09:22:07 发布

阅读量2.1k

点赞数 2

分类专栏： Big Data Technology 文章标签： mapreduce 大数据 spark hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44900533/article/details/105505480

版权

本文介绍了大数据的基本概念，通过类比讲述了分布式处理和并行处理的重要性，强调了Apache Spark在大数据处理中的作用，并详细解析了MapReduce的编程模型，包括Map和Reduce函数的核心功能。

摘要由CSDN通过智能技术生成

什么是大数据？

百度百科解释为：

“是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”

有点高级有点绕。简化一下，大数据就是拥有很高价值不能轻易被推倒(咳)处理的数据集合。就像你要去打一个数据究极体的boss，你需要带上最好的剑，翻过最高的山，闯进深的森林。boss挂了，自然你获得的经验值也是最高的。

那么这个数据究极体该如何打呢？
战术打击：分布式处理 distributed processing & 并行处理 Parallel processing

上理论：

“分布式处理则是将不同地点的，或具有不同功能的，或拥有不同数据的多台计算机通过通信网络连接起来，在控制系统的统一管理控制下，协调地完成大规模信息处理任务的计算机系统。”
“并行处理是利用多个功能部件或多个处理机同时工作来提高系统性能或可靠性的计算机系统，这种系统至少包含指令级或指令级以上的并行。”

理论不想看，那上图：
在这里插入图片描述
嗯？图也不想看？

那你只好听我粗鄙的类比了。就像上面咱说过的

最低0.47元/天解锁文章

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大数据技术入门之分布式处理、并行处理和MapReduce

什么是大数据？百度百科解释为：“是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”有点高级有点绕。简化一下，大数据就是拥有很高价值不能轻易被推到(咳)处理的数据集合。就像你要去打一个数据究极体的boss，你需要带上最好的剑，翻过最高的山，闯进深的森林。boss挂了，自然...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。