敏叔_VIP

飞翔在天空,微风吹过脸颊,那种感觉无法用语言来表达!

Hadoop分布式存储的体验

今天我们来把Hadoop弄到多台机器上,脑补一下手头有500多台机器,大大大老板喊我们去部署一套传说中的大数据平台,好多好多银子,人生小巅峰有木有。啪,打醒,回到现实,我们现在手头只有几台虚拟机。 下面开始动手了 。  第二台DataNode的部署  有了之前的准备工作,新增一台DataNo...

2018-07-31 00:15:21

阅读数 175

评论数 0

Hadoop分布式存储的体验

今天我们来把Hadoop弄到多台机器上,脑补一下手头有500多台机器,大大大老板喊我们去部署一套传说中的大数据平台,好多好多银子,人生小巅峰有木有。啪,打醒,回到现实,我们现在手头只有几台虚拟机。 下面开始动手了 。  第二台DataNode的部署  有了之前的准备工作,新增一台DataNo...

2018-07-31 00:12:06

阅读数 184

评论数 0

分布式下的时间同步

hey,你机器怎么老出问题,是不是时间同步有问题呀,有问题你就直说呀,你说了我才知道时间同步有问题嘛,你不说我怎么知道时间同步有问题呢,大家要讲道理嘛,真是时间同步有问题吗,不是真的时间同步有问题吧,难道..真是时间同步有问题? 徒儿(黑人问号):纳尼,说好的hadoop集群呢 ? 严肃脸!这...

2018-07-31 00:10:26

阅读数 554

评论数 0

Yarn环境搭建

Hadoop在2.x的版本中引入了Yarn,我最开始从事大数据方面工作的时公司还是用着原有的那套Jobtracker和Tasktracker,所以还是蛮有印象的。印象很深的就是那个时候为了说yarn好,然后就要批斗一番之前的多么不好,颇有革命的味道,实际上那个时候大部分公司的作业量其实不大,尤其中...

2018-07-31 00:08:45

阅读数 252

评论数 0

剖析剖析我们的Yarn程序-Client提交

前面我们把一个 Yarn 程序跑起来了,那么这个Yarn程序都做了些什么呢,这个需要和我们的分布式计算程序说起。所谓分布式程序,也就是把计算量分配到多台机器去运算,这样传统的单机运算的局限就被打破了,还记得我们之前提到的来自 Google 的论文: “Simplified Data Process...

2018-07-31 00:07:31

阅读数 140

评论数 0

剖析剖析我们的ApplicationMaster

 ApplicationMaster 部分,这里是整个分布式程序的指挥中心, 为了追寻大神们的脚步,我们在源码里面添加了一些日志提示 ,跟着运行的轨迹,我们来翻开Master部分的迷雾。  且说上回我们说到 Client在申请了一个 Container 之后便把我们的jar提交到容器中执行了,接...

2018-07-31 00:05:56

阅读数 830

评论数 0

Spark引入

本来一开始就是准备给徒儿写spark的文章来着,掐掐肉肉的手指,算到前面前面已经铺垫了许久。前几日大雨刷洗了整个广州,谁知周一上班又回到了万里晴空,大家的话题瞬间由谈论各种积水转到了天气很热之类话题,然后会扯到吃个冰西瓜特爽,见到老板卖得好,就会怼上一句老板以前肯定是程序员,以至于都忘了一开始是本...

2018-07-31 00:04:46

阅读数 79

评论数 0

Spark开发环境的搭建(一)

大概从这部分开始,我们讨论的方式画风会变成 "show me your code"。天才第一步,雀氏纸尿裤,今天我们把基础的开发环境搭建起来,经历一把从编码干到集群跑起的过程。 spark核心部分是scala语言写的,本身的项目是sbt管理项目依赖的,很多同学...

2018-07-31 00:02:22

阅读数 514

评论数 0

Spark开发环境的搭建(二)

上回我们在本地运行了一个java写的spark程序, 在实际的开发中我们更多的是采用java和scala混合编码的形式,就是一个工程中两种代码结合使用。我们接着往下做,这次我们在原有的工程中去使用scala去实现我们的wordcount。 之前我们的搭建的环境还不能写scala代码,其实可以主动...

2018-07-31 00:01:09

阅读数 103

评论数 0

WordCount的计算过程分析

大部分同学在Spark从入门到放弃这条路上都一般会了解两个经典程序,一个求圆周率的程序(Pi),另一个便是我们的WordCount了,前者一般用来验证集群安装的成功性,后者,则是编程的入门程序。 我第一次接触到spark程序的时候也是博客上面介绍在spark-shell上面去敲单词计数程序,然后洋...

2018-07-30 23:57:58

阅读数 368

评论数 0

Spark中的RDD介绍

我们在研究WordCount的时候碰到了很多诸如JavaRDD、Function之类的字眼,其实这些个代码逻辑就是我们以后日日夜夜不断去写去改的那部分程序了,从某种程度上来讲,完成一道spark的作业题,基本也就是去设计我们的rdd和function了。既然话都说到这份上了,建立感情需要从认识开始...

2018-07-30 23:55:11

阅读数 124

评论数 0

不同层次下的Hadoop集群烧脑的事情

不同层次下的Hadoop集群烧脑的事情

2018-06-11 23:57:22

阅读数 60

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭