hadoop
xiao_jun_0820
要自己每天都开心,不要烦恼
忘掉压力,天天好心情
展开
-
hadoop 如何重新格式化dfs系统
若想重新格式化dfs系统,必须先1 将namenode上 dfs.name.dir所指定的目录删除2 将所有datanode的 dfs.data.dir目录删除3 将所有节点的hadoop.tmp.dir里所有子目录删除。然后重新执行 hadoop namenode -format 格式化。一个干净的dfs系统重新产生了,不过原来的数据就全部丢失了。。。原创 2013-04-26 23:42:18 · 7473 阅读 · 0 评论 -
SequenceFile 读写操作
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.io.SequenceFile;import org.ap原创 2014-05-30 20:45:23 · 12505 阅读 · 2 评论 -
Hive 数据倾斜总结
几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量转载 2014-06-20 11:04:37 · 1119 阅读 · 0 评论 -
Hadoop的kerberos的实践部署
本文重点描述实际操作和实践部分。理论部分和介绍将一笔带过。测试结果:在CM下的kerberos,遇到严重的bug不能顺畅跑通。在自己的Hadoop下,能够顺利跑通。Hadoop的认证机制详细介绍请参考Hadoop安全机制研究hadoop-kerberos介绍简单来说,没有做kerberos认证的Hadoop,只要有client端就能够连接上。而且,通过一个有root的权限的内网转载 2014-09-18 17:19:03 · 21152 阅读 · 1 评论 -
oozie知识整理
oozie workflow 由控制流节点(control flow nodes)和行为节点(action nodes)组成控制流节点包括start ,end ,kill node,the decision , fork and join nodes当一个workflow执行到end node时,表名这个wf已经成功执行完成,如果有多个actions,其中一个到达了end node,则会k原创 2014-10-22 08:56:09 · 16139 阅读 · 2 评论 -
搜索hadoop生态系统相关源码的网站
搜索hadoop生态系统相关源码的网站:http://search-hadoop.com/原创 2014-10-09 21:35:49 · 706 阅读 · 0 评论 -
hadoop 修改最大进程文件描述符数
vi /etc/security/limits.conf添加:* soft nofile 65535* hard nofile 65535* soft nproc 65535* hard原创 2014-11-21 11:37:32 · 2600 阅读 · 0 评论 -
从Java代码远程提交YARN MapReduce任务
http://blog.csdn.net/mercedesqq/article/details/16885115#在Hadoop上运行MapReduce任务的标准做法是把代码打包到jar里面,上传到服务器,然后用命令行启动。如果你是从一个Java应用中想要启动一个MapReduce,那么这个方法真是又土又麻烦。其实YARN是可以通过Java程序向Hadoop集群提交MapRed转载 2015-01-30 16:42:27 · 11286 阅读 · 2 评论 -
hadoop作业引用第三方jar文件
要想让mapreduce程序引用第三方jar文件, 可以采用如下方式:通过命令行参数传递jar文件, 如-libjars等;直接在conf中设置, 如conf.set(“tmpjars”,*.jar), jar文件用逗号隔开;利用分布式缓存, 如DistributedCache.addArchiveToClassPath(path, job), 此处的path必须是hdfs, 即自己讲转载 2014-12-24 11:23:57 · 2764 阅读 · 0 评论 -
mapreduce程序如何跳过待处理文件的首行
首选明白一点,map的输入key为当前行在文件内的位置偏移量,所以首行的偏移量肯定是0,所以可以进行如下判断来跳过第一行的处理public void map(Object key, Text value, Context context) throws IOException, InterruptedException { log.info("----------key" + k原创 2014-12-09 11:19:49 · 4361 阅读 · 2 评论 -
mapreduce合并小文件成sequencefile
import java.io.IOException;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.BytesWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.mapreduce.InputSplit;impor原创 2015-01-15 20:34:35 · 4634 阅读 · 0 评论 -
由于在写oozie hive action时候script属性指定hql脚本时多写了一个斜杠导致的一个悲剧,以及解决方案
今天在编写 oozie hive action,编写的action如下: ${jobTracker} ${nameNode} /tmp/hupu/hive/res/hive-site.xml /tmp/hupu/hive/tmphql/原创 2015-02-09 18:00:38 · 2223 阅读 · 0 评论 -
Tuning the Cluster for MapReduce v2 (YARN)
Tuning the Cluster for MapReduce v2 (YARN)This topic applies to YARN clusters only, and describes how to tune and optimize YARN for your cluster. It introduces the following terms:ResourceMana转载 2015-03-23 09:48:55 · 1790 阅读 · 0 评论 -
How to Plan and Configure YARN and MapReduce 2
As part of HDP 2.0 Beta, YARN takes the resource management capabilities that were in MapReduce and packages them so they can be used by new engines. This also streamlines MapReduce to do what it d转载 2015-04-02 14:20:15 · 779 阅读 · 0 评论 -
sqoop 导入数据的时候出现Unsupported major.minor version 52.0的问题描述
出现该问题是由于cloudera manager和系统的jdk版本不一致导致的,更具体点是cm使用的是低版本的jdk(我的是1.7),而操作系统通过java -version出来的版本是高版本的jdk(我的是1.8),由于sqoop会自动生成代码并编译程jar然后提交给map-reduce执行,所以shell命令行执行sqoop编译出来的job jar是1.8编译的,而我的cm5.3.0安装的时候原创 2016-02-22 12:57:40 · 5373 阅读 · 0 评论 -
如何建立完整可用的安全大数据平台
如何建立完整可用的安全大数据平台2016-03-07 江金陵 大数据杂谈“ 要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外,没有任何一个引入大数据解决方转载 2016-03-09 11:38:30 · 6482 阅读 · 0 评论 -
samza中扒了一个YarnUtil来对yarn app进行相应的操作
import org.apache.hadoop.yarn.api.records.ApplicationId;import org.apache.hadoop.yarn.client.api.YarnClient;import org.apache.hadoop.yarn.conf.YarnConfiguration;import org.apache.hadoop.yarn.except翻译 2017-01-16 10:38:03 · 790 阅读 · 0 评论 -
关于hadoop与jstl冲突的jar包问题
最近在做一个提交spark作业的web后台,当前端页面需要用到el表达式时,出现报错:The method proprietaryEvaluate(String, Class, PageContext, ProtectedFunctionMapper, boolean) in the type PageContextImpl is not applicable for the argume原创 2017-02-09 15:47:21 · 1141 阅读 · 0 评论 -
Hadoop MapReduce原理
先看一段代码: package com.abc;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Pa转载 2014-06-13 09:48:05 · 816 阅读 · 0 评论 -
protobuf 使用相关
google protobuf的介绍和使用官方地址为:https://developers.google.com/protocol-buffers/原创 2014-05-15 10:20:28 · 6755 阅读 · 1 评论 -
hadoop如何执行自己编写的MapReduce程序
比如我们现在写好了一个mapred程序如下:package com.besttone.mapred;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path原创 2013-04-21 01:25:29 · 1345 阅读 · 0 评论 -
安装hbase
单机版的hbase我死活没装好,rootdir设置为本地文件系统一直报错,不知道什么原因。庆幸的是分布模式的hbase 安装成功了,记录一下安装过程。此处分布模式HADOOP的安装略去,假设你已经安装好了分布式HADOOP。首先去HBASE官网上下载稳定版本的hbase.我下载的是0.94.7版本这里摘录一段官网上描述的HBASE版本和HADOOP版本的对应关系:选择 Hadoop原创 2013-05-06 16:43:47 · 1264 阅读 · 0 评论 -
sqoop 安装及使用
sqoop的版本跟hadoop的版本要对应,由于我用的是hadoop-1.0.4,于是我下载的sqoop是sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz。 这里假设已经安装好了hadoop,可能你没有设置环境变量,有几个环境变量sqoop会用到:export PATH=/home/hadoop/sqoop-1.4.3/bin:$PATHexport HAD原创 2013-05-07 14:43:34 · 1546 阅读 · 0 评论 -
linux ssh设置免密码登陆
我有两台笔记本电脑上分别装有两个centos的虚拟机,一个IP为172.16.1.10(slave),一个IP为172.16.1.9(master)。在slave上用root用户 vi /etc/hosts ,在里面增加 172.16.1.9 master。1 在slave上执行:ssh-keygen -t rsa或者ssh-keygen -t rsa -P ''-P表示密码,-P原创 2013-04-23 23:50:27 · 886 阅读 · 0 评论 -
Hadoop作业调优参数整理
原文出处:http://luoli523.com/blog/2012/11/08/hadoopzuo-ye-diao-you-can-shu-zheng-li/ 新博客开张几天,有好多以前看过我CSDN上博客的同行们在问我以前的笔记还会不会整理到新博客上来,其实原本没有打算搞上来的,因为一来挺耗精力,二来也都比较老了,有一些内容可能大家都已经熟悉,或者有些已经过时了。实在没有想到居然还转载 2014-01-23 09:34:13 · 831 阅读 · 0 评论 -
Hadoop安装配置
原文:http://www.cnblogs.com/liuxp/p/3504037.html 1、集群部署介绍1.1 Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的转载 2014-01-23 10:02:11 · 1060 阅读 · 0 评论 -
HDFS的运行原理
http://www.cnblogs.com/laov/p/3434917.html简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢转载 2014-01-23 15:22:58 · 1470 阅读 · 1 评论 -
win7上搭建hadoop开发环境
【Hadoop】Win7上搭建Hadoop开发环境,方法一在Win7上,编写hadoop程序 操作系统:win7hadoop版本:CDH3u6 1、下载安装JDK,以及Eclipse 具体看此链接:http://blog.csdn.net/weixuehao/article/details/177157932、新建JAVA Project转载 2014-01-23 15:43:53 · 2412 阅读 · 1 评论 -
安装一个单节点的 Hadoop 分布式系统
安装一个单节点的 Hadoop 分布式系统返回原文英文原文:Hadoop MapReduce Next Generation - Setting up a Single Node Cluster.Mapreduce TarballYou should be able to obtain the MapReduce tarball from the release. If not, you shou转载 2014-03-10 11:51:34 · 822 阅读 · 0 评论 -
mapreduce join 例子
原文出处:http://blog.sina.com.cn/s/blog_4a1f59bf0100l9cp.html 对于一个大数据的分析应用,join是必不可少的一项功能.现在很多构建与hadoop之上的应用,如Hive,PIG等在其内部实现了join程序,可以通过很简单的sql语句或者数据操控脚本完成相应的Join工作.那么join应该如何实现呢?今天我们就对join做一个简单的实现.我转载 2014-03-18 14:01:11 · 1762 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
原文地址:http://doudouclever.blog.163.com/blog/static/175112310201271043210475/ Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapRedu转载 2014-03-20 11:25:01 · 628 阅读 · 0 评论 -
mapreduce中map数量计算
mapreduce作业会根据输入目录产生多个map任务, 通过多个map任务并行执行来提高作业运行速度, 但如果map数量过少, 并行量低, 作业执行慢, 如果map数过多, 资源有限, 也会增加调度开销. 因此, 根据输入产生合理的map数,为每个map分配合适的数据量, 能有效的提升资源利用率, 并使作业运行速度加快. 假设put一个160M的文件到HDFS上,blockSize为默认原创 2014-03-21 14:59:01 · 4134 阅读 · 0 评论 -
编译CDH4.2.2源码
centos 6.3 32位操作系统1 mvn,jdk具体安装此处不细说了,重点介绍编译hadoop源码相关 Native librariesOn Linux, you need the tools to create the native libraries. For RHEL (and hence also CentOS): 需要先执行:yum -y install原创 2014-05-06 09:45:37 · 897 阅读 · 0 评论 -
hadoop 2.0服务端口约定
hadoop 2.0服务端口约定,备查。原创 2014-04-22 09:02:07 · 1481 阅读 · 0 评论 -
Hadoop中的各种排序
原文:http://blog.csdn.net/kingjinzi_2008/article/details/77381881:shuffle阶段的排序(部分排序)shuffle阶段的排序可以理解成两部分,一个是对spill进行分区时,由于一个分区包含多个key值,所以要对分区内的按照key进行排序,即key值相同的一串存放在一起,这样一个partition内按照key值整体有序了转载 2014-03-26 14:46:40 · 885 阅读 · 0 评论 -
新旧版本FileInputFormat获得输入分片的不同
有接触过hadoop的都应该清楚InputFormat原创 2014-06-03 14:22:02 · 1346 阅读 · 0 评论 -
修改 hadoop 集群及hbase集群的pid文件存放位置
今天准备把hbase集群和hadoop集群停了做一些配置调整,结果运行stop-all.sh的时候无法停止集群,都提示no datanode,no namenode等等之类的信息,于是我翻看了一下stop-all.sh stop-dfs.sh,stop-yarn.sh脚本,发现原理都是通过一个pid文件来停止集群的。这些进程的pid文件默认都是保存在系统的/tmp目录下面,系统每个一段时间原创 2014-06-27 09:48:53 · 17967 阅读 · 1 评论 -
测试环境为了方便DEBUG排查问题,配置YARN延迟删除本地文件
yarn.nodemanager.delete.debug-delay-sec默认值:0,app执行完之后立即删除本地文件desc:应用程序完成之后 NodeManager 的 DeletionService 删除应用程序的本地化文件和日志目录之前的时间(秒数)。要诊断 YARN 应用程序问题,请将此属性的值设为足够大(例如,设为 600 秒,即 10 分钟)以允许检查这些目录。原创 2017-07-25 16:20:19 · 1708 阅读 · 0 评论