数据分析
文章平均质量分 81
Wilson_Iceman
这个作者很懒,什么都没留下…
展开
-
大数据开发从小白到大神(三)——Hadoop完全分布式
上一篇文章给大家介绍了Hadoop的伪分布式系统,但是当电脑重启后,数据就是丢失,这是因为Hadoop的伪分布模式是把文件存放在临时文件夹中(/tmp/hadoop/),当进程关闭后,文件也就不存在了,所以我们今天来配置Hadoop的完全分布式。 首先我们需要搞清楚几个问题,Hadoop的完全分布式中,一共有5个进程,分别是名称节点(NameNode),数据节点(dataNode),辅助名称节点原创 2018-03-07 12:52:40 · 665 阅读 · 0 评论 -
大数据开发从小白到大神(四)——Eclipse开发环境
到目前为止我们的Hadoop完全分布式系统已经搭建完成,现在就是要通过编程来操作Hadoop了,由于Hadoop是基于java语言开发的,自然离不开Eclipse,今天我们就来配置Hadoop的Eclipse开发环境。 由于我的电脑已经安装了Eclipse了,所以这里就不再介绍Eclipse的安装过程了。给出一个Eclipse的官方地址, https://www.eclipse.org/dow原创 2018-03-08 17:09:49 · 2069 阅读 · 0 评论 -
大数据开发从小白到大神(一)——搭建Linux虚拟机平台
最近大数据特别火,所以笔者也想蹭蹭热度,来点大数据的内容。 由于大数据涉及的东西太多了,一两篇文章肯定说不完,所以这个系列到底有几篇文章,现在也确定不了,写着看吧。我尽量写一些干货,一些在工作和开发中用的知识点,同时也是对自己学习大数据的一个总结吧。 今天是这个系列的第一天,首先要做的就是搭建大数据开发环境,今天主要介绍搭建Linux虚拟机平台。 我的主机系统是win7,虚拟机是VMware原创 2018-03-01 17:19:54 · 2624 阅读 · 0 评论 -
大数据开发从小白到大神(二)——安装配置Hadoop框架
在上一篇文章中我们完成了5台虚拟机的搭建工作,并且完成了对5台虚拟机都进行了静态ip的设置,这只是大数据平台搭建的基础部分,今天我们就来开始真正的接触大数据——Hadoop。 在这个系列中我只想写干货,真正与开发有关的东西,所以关于Hadoop是个什东西,为什么要用Hadoop,网上的资料一大推,大家可以自行百度。 在安装Hadoop之前还是有一些预备工作要做,笔者一般喜欢在命令行操作Linu原创 2018-03-05 17:12:29 · 578 阅读 · 0 评论 -
大数据开发从小白到大神(五)——Maven搭建本地仓库
上一节中我们说到了用eclipse搭建Hadoop的开发环境,但是那是在本地已有hadoop源码的基础上搭建的,如果我们没有hadoop的源码,或者我们今后还要搭建zookeeper,hive等环境,是不是每一个都需要去下载源码呢?答案是否定的,我们只需要在本地安装一个项目管理工具,并且告诉它我们需要什么东西,它就能自动的从远程仓库中下载源码到本地以供我们使用。这个东西就是Maven。 通过上面原创 2018-03-14 17:16:34 · 616 阅读 · 0 评论