hadoop
文章平均质量分 92
code_____monkey
是一种近几十年来出现的新物种 是工业革命的产物 从劳动性质上称为码农 在物种归类上称为码字猴 程序猿是人类在科技研究上的一种新兴进化 拥有长时间高强度工作的耐力 超越时代的智商 横穿社会的苦逼相和低于人类平均寿命的显著特点 总之程序猿始终是一种非常悲剧的存在
展开
-
hadoop伪分布模式配置知识点讲解
参考:http://blog.csdn.net/inkfish/archive/2010/01/07/5150029.aspxhttp://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html伪分布模式也是在一台单机上运行,但用不同的 Java 进程模仿分布式运行中的各类结点 ( NameNode, Da转载 2013-06-30 09:50:33 · 1113 阅读 · 0 评论 -
第六章 HDFS概述
第六章 HDFS概述6.1.2 HDFS体系结构HDFS采用主从结构,NameNode(文件系统管理者,负责命名空间,集群配置,数据块复制),DataNode(文件存储的基本单元,以数据块形式保存文件内容和数据块的数据校验信息,执行底层数据块IO操作),Client(和名字节点,数据节点通信,访问HDFS文件系统,操作文件),SecondaryNameNode1、数据块原创 2016-06-22 12:42:04 · 2487 阅读 · 0 评论 -
mapreduce
Hadoop mapreduce对外提供了5个可编程组件,分别是InputFormat,Mapper,Partitioner,Reducer,OutputFormatmapreduce能解决的问题有一个共同特点:任务可被分解成多个子问题,且这些子问题相对独立,彼此不会相互牵制。分治的思想。task分为maptask和reducetask。hdfs以固定大小的block为基本的存储单元,原创 2016-07-05 08:48:38 · 5044 阅读 · 0 评论 -
YARN 设计理念与基本架构
YARN 的基本组成结构一. ResourceManagerResourceManager 是一个全局的资源管理器,负责整个集群的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Master,ASM)。①调度器该调度器是一个 "纯调度器",不再参与任何与具体应用程序逻辑相关的工作,而仅根据各个应用程序的资源需求进行分配,资源转载 2016-04-26 19:15:20 · 643 阅读 · 0 评论 -
Hadoop MapReduceV2(Yarn) 框架
下一代MapReduce框架的名称,为了容易记忆,一般称为MRv2(MapReduce version 2)。该框架已经不再是一个传统的MapReduce框架,甚至与MapReduce无关,她是一个通用的运行时框架,用户可以编写自己的计算框架,在该运行环境中运行。用于自己编写的框架作为客户端的一个lib,在运用提交作业时打包即可。该框架为提供了以下几个组件:原创 2014-10-29 23:17:00 · 1233 阅读 · 0 评论 -
map和reduce 个数的设定
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input转载 2015-05-13 15:31:39 · 2581 阅读 · 0 评论 -
mapreduce 压缩
Hadoop的常见压缩格式以及特性为了支持多种压缩解压缩算法,Hadoop引入了编码/解码器。与Hadoop序列化框架类似,编码/解码器也是使用抽象工厂的设计模式。目前,Hadoop支持的编码/解码器如下所示hadoop下各种压缩算法的压缩比,压缩时间,解压时间见下表:压缩算法原始文件大小压缩后的文件大小压缩速度原创 2015-05-04 01:34:10 · 1058 阅读 · 0 评论 -
hadoop作业引用第三方jar文件原理解析
在eclipse中写mapreduce程序, 引用第三方jar文件, 可以利用eclipse hadoop插件直接run on hadoop提交, 很方便. 不过插件版本要和eclipse匹配, 不然总是local执行, 在50070是没有job产生的.如果希望将程序发布成jar文件, 在namenode上通过命令行方式执行, 缺少了eclipse帮忙自动配置jar文件, 会遇到java转载 2015-03-09 15:17:14 · 704 阅读 · 0 评论 -
ubuntu下hadoop 2.3.0配置
环境:系统:ubuntu12.4hadoop:2.3.0原创 2014-08-14 02:07:08 · 1882 阅读 · 0 评论 -
Error: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-965200530-172.21.3.1
跑hive脚本也就是mr程序时遇到以下错误:Ended Job = job_1406698610363_0394 with errorsError during job, obtaining debugging information...Examining task ID: task_1406698610363_0394_m_000014 (and more) from job jo原创 2014-10-09 20:09:46 · 38925 阅读 · 4 评论 -
ubuntu12环境下hadoop1.1.2伪分布式配置
网上大多数类似文章都基于hadoop0.02,现在hadoop版本升级,本人经实践,写下本文,其中不少地方参考了前辈的经验,在此致谢,并声明copy之处只为技术交流。1.环境ubuntu 12hdoop 1.1.22,创建hadoop用户组;1sudo addgroup hadoop2. 创建hadoop用户;原创 2013-06-28 13:15:06 · 2979 阅读 · 0 评论 -
hive UDF
UDF(user defined function).hive的UDF包含三种:UDF支持一个输入产生一个输出转载 2014-05-10 17:52:35 · 3745 阅读 · 0 评论 -
Error: Exceeded limits on number of counters - Counters=120 Limit=120
今天用eclipse开发hadoop mapreduce程序,实现TF-IDF算法。开始测试的时候上传了10个文件一切正常,但当总的文件个数超过一百多个时eclipse开始报错,错误出现在ruduce过程中,此时输入reduce的数据是所有文件经过初步处理的合集,具体错误如下:org.apache.hadoop.mapred.Counters$CountersExceededException原创 2014-03-26 02:37:57 · 2182 阅读 · 0 评论 -
hadoop伪分布式错误总结
最近在做hadoop平台实现if-tef算法,遇到些错误,整理了一下。先说环境:ubuntu 12.4, hadoop1.1.2伪分布式,操作文件个数4000多个,然后输出4000多个文件第一个错误:14/03/26 23:47:11 WARN hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.ipc.RemoteE原创 2021-04-10 19:25:09 · 1187 阅读 · 0 评论 -
ubuntu系统下eclipse配置hadoop开发环境并运行wordcount程序
先列出本机环境:ubuntu 12eclipse 3.6hadoop 1.1.2ubuntu12环境下hadoop1.1.2伪分布式配置成功,然后用Ant编译eclipse hadoop plugin插件,接下来就是eclipse hadoop开发环境配置了。具体的操作如下:一、在eclipse下安装开发hadoop程序的插件将编译好的hadoop-1.1.2-ec原创 2013-06-30 14:40:48 · 5624 阅读 · 0 评论 -
ubuntu下hadoop运行wordcount程序
本机环境ubuntu 12hadoop 1.1.2首先保证hadoop配置成功1、在Hadoop的解压目录的如下位置可以找到WordCount.java的源文件 src/examples/org/apache/hadoop/examples/WordCount.java新建一个wordcount的文件夹,将WordCount.java拷贝至dev/wordcount文件原创 2014-03-06 13:02:16 · 4532 阅读 · 0 评论 -
hadoop常见错误及处理方法
如果大家在安装的时候遇到问题,或者按步骤安装完后却不能运行Hadoop,那么建议仔细查看日志信息,Hadoop记录了详尽的日志信息,日志文件保存在logs文件夹内。无论是启动,还是以后会经常用到的MapReduce中的每一个job,以及HDFS等相关信息,Hadoop均存有日志文件以供分析。1、hadoop-root-datanode-master.log 中有如下错误:转载 2013-06-30 09:48:56 · 57042 阅读 · 2 评论 -
hadoop常用命令
启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打转载 2014-03-04 15:38:19 · 1079 阅读 · 0 评论 -
cm相关服务及端口
一、服务YARN:JobHistory ServerNodeManagerResourceManagerHDFS:BalancerDataNodeNameNodeSecondaryNameNode二、端口1、cloudera manager 端口 71802、HDFS端口:NameNode 运行 HDFS 协议的端口fs.default.na原创 2017-04-07 14:35:27 · 2465 阅读 · 0 评论