![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 76
黑箭
小硕在读一枚,涉猎大数据,图像处理,机器学习。
展开
-
回顾——Hadoop简介
本系列为作者对学习hadoop之后的回顾。本文为第一章,简介hadoop以及其组成。原创 2016-12-12 19:01:28 · 346 阅读 · 2 评论 -
回顾——HDFS文件系统
上一节我们介绍了Hadoop是什么,以及包括哪些模块,本节开始我们分别详细介绍HDFS,MapReduce和YARN。由于HDFS是整个Hadoop的中流砥柱,而且也是部署集群时最先配置的模块,所以我们先介绍HDFS。原创 2016-12-13 22:43:18 · 484 阅读 · 0 评论 -
回顾——MapReduce计算模型
上一节我们回顾了HDFS文件系统,以及其架构原理。那么在这一节,我们来介绍Hadoop的离线计算模型——MapReduce,并以wordcount程序为例详细讲解。原创 2016-12-16 12:47:46 · 3042 阅读 · 0 评论 -
Spark——二次排序(scala)
Spark实现二次排序的两个版本(Scala): (1)利用分组,手动将第二个元素按规则排序 (2)自定义数据类型,继承Ordered和Serializable接口,实现compare方法。原创 2016-12-23 11:04:39 · 1060 阅读 · 0 评论