hadoop
IT菜籽U
当你发现自己的才华撑不起野心时,就请安静下来学习吧
展开
-
INFO hdfs.DFSClient: Exception in createBlockOutputStream java.net.NoRouteToHostException: No route
No route to host,hadoop,pi原创 2016-04-25 16:48:54 · 6471 阅读 · 1 评论 -
Error: GC overhead limit exceeded解决之道
前提:运行MR的硬件环境必须满足,本人的i7处理器,8G内存。在执行2000W数据,(大表和小表关联)如图所示CPU的情况:瞬时CUP达到99%,内存占用率70%。eclipse中mp任务异常http://blog.csdn.net/xiaoshunzi111/article/details/52882234 i have a problem when r转载 2016-10-22 10:20:01 · 10481 阅读 · 1 评论 -
Could not find output/file.out in any of the configured local directories
转载:http://blog.pureisle.net/archives/1785.html十二、如果遇到如下错误:FAILED java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI:***就是URI里边出现了不允许出现的字符,比如转载 2016-10-19 09:51:04 · 1066 阅读 · 0 评论 -
修改spark或者hadoop master web ui端口
spark master web ui 端口8080被占用解决方法spark master web ui 默认端口为8080,当系统有其它程序也在使用该接口时,启动master时也不会报错,spark自己会改用其它端口,自动端口号加1,但为了可以控制到指定的端口,我们可以自行设置,修改方法: 1、cd SPARK_HOME/sbin 2、vi start转载 2016-11-15 17:11:19 · 11911 阅读 · 0 评论 -
hadoop中4中常用的压缩格式的特征的比较
1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件转载 2016-12-12 09:22:55 · 711 阅读 · 0 评论 -
hadoop输入分片计算(Map Task个数的确定) - 有无之中
出处:作业从JobClient端的submitJobInternal()方法提交作业的同时,调用InputFormat接口的getSplits()方法来创建split。默认是使用InputFormat的子类FileInputFormat来计算分片,而split的默认实现为FileSplit(其父接口为InputSplit)。这里要注意,split只是逻辑上的概念,并不对文件做实际的切分转载 2016-11-24 16:04:52 · 1359 阅读 · 1 评论 -
为何要split大小和block大小是相同的(默认)
Mapreduce数据处理过程作业(job)是Mapreduce数据处理单元,分为两大过程:map和reduce;首先作业提交集群中被分成若干小的任务(task)执行具体操作步骤,二job和task是被jobtracker和tasktracker分别控制执行的,前者是管理job后者管理task。在数据操作过程中,jobtracker通过调用tasktracker中任务(task)集协调原创 2016-11-24 16:10:37 · 2282 阅读 · 2 评论 -
Hadoop之block学习笔记
当写入一个文件到 HDFS 时,它被切分成数据块,块大小是由配置文件 hdfs-default.xml 中的参数 dfs.blocksize (自 Hadoop-2.2 版本后,默认值为 134217728字节即 128M,可以在 hdfs-site.xml 文件中改变覆盖其值,单位可以为k、m、g、t、p、e等)控制的。每个块存储在一个或者多个节点,这是由同一文件中的配置 dfs.repli转载 2016-11-25 13:28:21 · 484 阅读 · 0 评论 -
hadoop 数据倾斜详解
数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。 阿里的这篇比较实用,通俗易懂:数据倾斜总结 http://w转载 2017-02-28 18:32:09 · 1399 阅读 · 0 评论 -
查看集群文件使用状态hdfs dfs -du -h /hbase --max-depth=1
[root@]# hdfs dfs -du -h /hbase --max-depth=10 0 /hbase/.tmp755.6 M 5.2 G /hbase/WALs22.4 G 67.3 G /hbase/archive0 0 /hbase/corrupt32.6 G 99.2 G /hbase/dat原创 2017-03-09 18:20:10 · 4534 阅读 · 0 评论 -
eclipse 连接 cdh5.5 插件
CDH 所用Eclipse 插件,与 Hadoop 插件一样。 CDH 5.5 对应的 (apache)hadoop-2.6。首先下载 hadoop Eclipse 插件。 下载地址: https://github.com/winghc/hadoop2x-eclipse-plugin安装 Eclipse 插件 复制 release/hadoop-转载 2016-09-06 12:40:42 · 1530 阅读 · 0 评论 -
eclipse 连接 cdh5.3插件
版本说明:eclipse:eclipse-jee-kepler-SR1-win32-x86_64cdh:hadoop-2.5.0-cdh5.3.6第一步:插件的安装在..\eclipse\plugins\导入hadoop插件如图:这些插件可在hadoop原生态安装包中找到。具体在apache官网下载对应版本的hadoop安装包的lib中以及cdh的lib中第二步:C原创 2016-09-06 12:39:10 · 1584 阅读 · 4 评论 -
CDH eclipse不兼容问题
hadoop插件开发方式1.插件开发对于插件开发,有些小麻烦。使用插件最好自己编译,因为eclipse插件能否连接成功,不止跟你的配置和集群有关系,还和你的eclipse版本有关系。这样造成很多新手链接不成功.2.无插件开发无插件开发,对于新手则需要熟悉Linux,因为你上传的文件,删除文件,没有使用插件方便。插件可以帮助你删除文件、上传文件后,不用通过Linux即可看到。插件转载 2016-09-03 18:11:23 · 859 阅读 · 0 评论 -
apache产品插件下载官网
http://apache.opencas.org/原创 2016-04-22 10:17:08 · 1334 阅读 · 0 评论 -
MR多表关联代码
JoinMain:package com.cys.tables;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import or原创 2016-08-03 15:07:39 · 1475 阅读 · 0 评论 -
CDH(Cloudera)与hadoop(Apache)对比
Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Pla转载 2016-08-17 15:57:16 · 1013 阅读 · 0 评论 -
hadoop报错report: Call From xxx to xxx failed on connect
flume异常日志:hdfs dfsadmin -report,报错如下:“report: Call From slave1.hadoop/192.168.1.106 to namenode:9000 failed on connection exception: java.net.ConnectException: Connection refused; For more detai转载 2016-08-30 10:05:38 · 4531 阅读 · 0 评论 -
hadoop的mapreduce作业中经常出现Java heap space解决方案
我们经常遇到这样的问题,内存溢出,内存溢出的原因是很简单,不够用了,不够用该怎么设置,通过水设置。可以参考下面案例一、hadoop的mapreduce作业中经常出现Java heap space解决方案常常被一些用户问到,说“为什么我的mapreduce作业总是运行到某个阶段就报出如下错误,然后失败呢?以前同一个作业没出现过的呀?”10/01/10 12:48:01 INF转载 2016-08-10 16:30:20 · 11407 阅读 · 0 评论 -
Hadoop eclipse开发解决Call to localhost/127.0.0.1:9000 failed on local exception: java.io.EOFException
问题:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------转载 2016-09-02 15:52:26 · 3597 阅读 · 0 评论 -
hdfs - ls: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException:
http://stackoverflow.com/questions/16372997/hdfs-ls-failed-on-local-exception-com-google-protobuf-invalidprotocolbuffere原创 2016-09-02 17:34:05 · 9917 阅读 · 0 评论 -
cdh_hadoop下载地址
http://archive.cloudera.com/cdh5/cdh/5/原创 2016-09-02 14:20:52 · 7444 阅读 · 2 评论 -
Message missing required fields: callId, status
Hadoop出错 " Message missing required fields: callId, status"解决方案用eclipse CDH-hadoop HDFS连接获取文件目录的时候出错:这种问题大部分都是版本的问题,于是查看环境相关信息:Hadoop环境版本信息: Hadoop 2.5.0-cdh5.3.2本地hadoop相关jar版原创 2016-09-03 16:46:47 · 3880 阅读 · 0 评论 -
HDFS负载均衡问题
转载:http://www.thebigdata.cn/Hadoop/28910.htmlhadoop HDFS 负载均衡问题,在实际的数据开发中,由于受到cup、磁盘空间、内存容量甚至是网络开销限制。会出现集群的负载均衡问题负载均衡包括两方面:1.集群个主机之间的数据负载均衡2.某台主机内部的数据负载均衡问题Hadoop 分布式文件系统(Hadoop转载 2017-03-31 17:00:37 · 4544 阅读 · 0 评论