hadoop
博大的Java世界
主要从事Java开发工作,熟悉web前端技术,如JS,JQUERY,DIV CSS,熟悉数据库如oracle,以及流行的后端开发框架,如spring,springMVC,mybatis,微服务,熟悉tomcat,weblogic服务器部署等。
展开
-
myeclipse创建自己归整jar包
在开发中有时我们需要将某些jar包集合在一起管理,此时我们需要将这些jar包集合,比如近期学习了一下hadoop,简单的做了些操作,在这里我们就需要将hadoop相应版本jar包集中管理起来,我用的是hadoop2.5.1版本,所以我们使用时将2.5.1版本的jar集中起来创建一个jar包进行管理,以免版本冲突。那么在我们myeclipse中怎么集中起来呢?1.首先创建一个普通java工程(s原创 2017-09-23 19:50:42 · 1460 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2017-10-22 23:47:47 · 178 阅读 · 0 评论 -
mapReduce job的提交流程
举一个非常简单的例子,通过mapreduce计算单词数量,下面为相关代码:1)准备环境,创建一个java工程,导入相关hdfs jar包,这些so easy 不在复述。2)首先我们都知道mapreduce框架,经过2个阶段,一个map阶段一个reduce阶段,所以我们首先要创建一个map来整理我们的单词和数量然后通过reduce来计算我们的单词相关总数。相关代码如下:我们可以把原创 2017-10-12 21:10:55 · 1381 阅读 · 0 评论 -
Hadoop 2.0工作原理学习
1 HDFS简介1.1 Hadoop 2.0介绍Hadoop是Apache的一个分布式系统基础架构,可以为海量数据提供存储和计算。Hadoop 2.0即第二代Hadoop系统,其框架最核心的设计是HDFS、MapReduce和YARN。其中,HDFS为海量数据提供存储,MapReduce用于分布式计算,YARN用于进行资源管理。Hadoop 1.0和Hadoop 2.0的结转载 2017-10-29 23:02:55 · 209 阅读 · 0 评论 -
HDFS Federation机制
前言在上一篇文章HDFS自定义小文件分析功能中,提到了NameNod内存空间使用过高的问题,紧接着提到了其中一个解决方案,就是HDFS Federation.说来也是挺奇怪的,HDFS的Federation机制其实在Hadoop很早的版本中就就有了,可是从日常使用上来看,了解和真正使用这个功能的人并不多.原因可能在于目前对于绝大多数用户的使用场景,一个NameNode或一对HA的N转载 2017-10-29 09:01:53 · 417 阅读 · 0 评论 -
hadoop文件上传解析
首先hadoop文件上传是一个复杂的过程,下面就让我们一下图为例进行简单的过程解析。由上图客户端上传一个文件,比如上述路径,首先hadoop平台查询内存元数据信息是否可以上传,如果可以那么namenode会分配需要上传的datanode数信息,然后通知客户端可以进行文件上传此过程会使用远程调用框架技术(RPC),这里不在复述,然后客户端根据返回树信息进行文件上传,上传成功之后datan原创 2017-10-09 22:51:59 · 2289 阅读 · 0 评论 -
hdfs获取输入流跟踪
测试代码如下:从上面例子可以看出fs对象open方法获取输入流对象,那么获取输入流对象可以获取什么信息呢?通过跟踪我们可以看出输入流信息非常丰富,比如:namenode信息,block块信息,大小,是否完整,块信息,还有远程通信的代理对象信息等。那么就让我们跟踪了解其原理:首先fs对象调用open方法,设置缓存大小为4096,相当于磁盘一个簇的大小,(我认为设置这样的大小速度效率应原创 2017-10-08 22:49:19 · 368 阅读 · 0 评论 -
零基础搭建Hadoop大数据处理-环境
由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作需要用到的知识介绍。VMware的安装,装好一个虚拟机后利用复制虚拟机的方式创建后面几个虚拟机,省时省力,需要注意的是需要修改每个虚拟机的IP与主机名。所有虚拟机采用NAT模式上网,而且要保证与物转载 2017-09-03 10:07:23 · 764 阅读 · 0 评论 -
linux -ls时drwxr-xr-x 所代表含义
读(read),写(write),执行r(recute)简写即为(r,w,x),亦可用数字来(4,2,1)表示举例:如果某文件权限为7则代表可读、可写、可执行(4+2+1).若权限为6(4+2)则代表可读、可写。权限为5代表可读(4)和可执行(1).权限为3代表可写(2)和可执行(1)。下图中文件所有者(属主)为root,所有组(属组)为ro原创 2017-09-19 23:06:39 · 2256 阅读 · 0 评论 -
SecureCRT链接失败
SecureCRT连接Ubuntu,centos失败,长时间的重新连接,连接不了。 Ubuntu,centos默认未安装ssh远程加密连接服务。使用命令,安装即可。 1.sudo apt-get install openssh-server openssh-client 2.rpm -qa | grep ssh查看SSH是否安装 若没有执行第1步 3.servi原创 2017-09-17 18:38:58 · 5728 阅读 · 0 评论 -
CentOS6.5解决中文乱码与设置字符集
1)说明:Windows的默认编码为GBK,Linux的默认编码为UTF-8。在Windows下编辑的中文,在Linux下显示为乱码。为了解决此问题,修改Linux的默认编码为GBK。2)查看支持的字符集:# locale -a3) 安装英文版默认的字符集配置为:# cat /etc/sysconfig/i18nLANG="en_US.UTF-8"转载 2017-09-25 22:42:43 · 720 阅读 · 0 评论 -
web界面查看hadoop状态
用于测试,我用4台虚拟机搭建成了hadoop结构我用了两个台式机。一个xp系统,一个win7系统。每台电脑装两个虚拟机,要不然内存就满了。 1、安装虚拟机环境 Vmware,收费产品,占内存较大。 或 Oracle的VirtualBox,开源产品,占内存较小,但安装ubuntu过程中,重启会出错。 我选Vmware。 2、安装转载 2017-09-16 16:22:10 · 17578 阅读 · 1 评论 -
hadoop相关常用配置
修改静态IP和hostname在 /etc/sysconfig/network-scripts/ifcfg-eth0配置IPADDR地址运行以下命令生效service network restart在/etc/sysconfig/network中配置hostname配置完成后重启生效设置ssh免转载 2017-09-16 10:27:30 · 263 阅读 · 0 评论 -
Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locat
今天学习了一点hadoop mapreduce框架的一些知识,但是之前不知道怎么在本地跑此程序,所以遇到了一些困难,说下解决思路:首先,我们要准备hadoop环境,配置hadoop运行环境,跟我们配置java_home一样,唯一区别是在我们还需要hadoop-common-2.2.0-bin-master,将winutils及hadoop.dll导入到我们hadoop bin中并且将其添加到w原创 2017-10-14 20:03:58 · 2859 阅读 · 2 评论