![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
曾二爷
这个作者很懒,什么都没留下…
展开
-
hadoop 入门级 实战
hadoop 实战 开头:本文介绍hadoop mapreduce开发的一般方法 默认你已经完美的装上了hadoop 并搭建好了开发环境一、简单的代码框架加载配置文件/**加载配置的类 采用单例模式*/import org.apache.hadoop.conf.Configuration;public class HadoopConfig { private原创 2015-05-15 16:46:04 · 737 阅读 · 0 评论 -
精通spark源码-rdd是如何运行的
一、spark执行过程的一个例子// rdd_people: id,年龄var rdd_people = sc.range(1, 100, 1).map(i=>(i, 20+i%80) )//rdd_score: id,成绩var rdd_score =sc.range(1, 100, 1).map(i=>(i ,i+2))//两个进行joinvar rdd_res ...原创 2019-01-21 13:21:13 · 392 阅读 · 1 评论 -
spark核心构件之Dependency(依赖)
之前的文章说一个spark任务其实就是一系列rdd构成的有向无环图(dag),今天我们来看看,spark是如何表示rdd之间的依赖关系建立这个dag的。一、rdd如何构成dag上篇文章讲到了Partition和Partitioner知道了rdd是由一系列分区(partition)组成的,rdd之间的关系主要的其实就是分区之间的关系,也就是子rdd的某个分区数据需要依赖哪些rdd的哪些分区计...原创 2019-03-23 12:30:53 · 481 阅读 · 0 评论 -
我做大数据工作这三年
一、初来乍到三年前,一锅盖头小伙在女朋友的感召下,坐上了140.50块的绿皮火车花了30多个小时到了上海火车站。这是他20多年来第一次出省,然而等待他的是2个多小时的地铁,加半个小时的公交。但是有女朋友的陪伴,这都不是事儿。到上海前,在网上随手投了几个实习简历,收到了两个面试邀请。刚来第二天,就坐上早高峰的地铁9号线去面试了……幸好没被挤扁。面试过程就是自己叽里呱啦、意气风发地自我介...原创 2019-08-18 22:24:11 · 509 阅读 · 0 评论