hadoop
文章平均质量分 63
Garry1115
关注微信公众号“虾米聊吧”,获取更多技术知识干货,一起交流,一起学习~
展开
-
hadoop的安装与配置(伪分布式模式安装)
最近偶然在研究hadoop看完网络上的配置文章居然在linux下安装成功的hadoop就把别人的文章进行说明一下,提供给需要的读者。hadoop 的安装分为本地模式、伪分布模式、集群模式。本地模式是运行在本地,只负责存储,没有计算功能,不讲述。伪分布模式是在一台机器上模拟分布式部署,方便学习和调试。集群模式是在多个机器上配置 hadoop,是真正的“分布式”。本文章讲述伪分布模式。原创 2014-02-21 23:20:35 · 3601 阅读 · 0 评论 -
移动namenode、secondarynamenode和jobTracker的节点(使其成为独立节点)
由于集群规模差异较大,对于主节点守护进程的配置也差异很大,包括namenode、辅助namenode和jobtracker。对于一个小型集群来说(几十个节点),可以直接将这些守护进程放到单独的一台机器上。但是对于大型集群来说,则最好让这些守护进程分别运行在不同机器上。namenode在内存中保存整个命名空间的所有文件和块数据,他的内存需求很大。辅助namenode在大多时间里空闲,但是他在创建原创 2014-03-29 23:09:25 · 3172 阅读 · 0 评论 -
单节点配置SecondaryNameNode
一、SecondaryNameNode概念: 光从字面上来理解,很容易让一些初学者先入为主:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其实不是。ssn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。转载 2014-03-29 22:35:25 · 1797 阅读 · 0 评论 -
hbase 的shell操作中相关属性说明
Hbase 是一个分布式的、面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统。 Hbase不同于一般的关系型数据库(RDBMS)。是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库。 下面的内容基于我们已经安装好hadoop、hbase。 一、hbase shell 介绍 h转载 2014-03-19 16:06:11 · 4788 阅读 · 0 评论 -
HBase条件查询(多条件查询)
Author:Pirate LeomyBlog: http://blog.csdn.net/pirateleo/myEmail: codeevoship@gmail.com转载请注明出处,谢谢。文中可能涉及到的API:Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase: http://hbas转载 2014-03-19 15:36:18 · 8572 阅读 · 1 评论 -
hadoop+hbase导致报错(NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration)
Exception in thread "main" java.io.IOException: Error opening job jar: ./ADReport2Hbase_0309.jar at org.apache.hadoop.util.RunJar.main(RunJar.java:90)Caused by: java.util.zip.ZipException:转载 2014-03-19 14:40:49 · 60057 阅读 · 0 评论 -
hive安装测试及Hive 元数据的三种存储方式
一 hive安装测试1、下载解压tar -xf hive-x.y.z.tar.gz(本次安装为hive-0.8.1.tar.gz)将解压后的hive-0.8.1文件放在系统的/home/hadooptest/中。2、环境变量配置在.bash_profile中添加:export HIVE_HOME=/home/hado转载 2014-03-31 22:27:51 · 3372 阅读 · 0 评论 -
十道海量数据处理面试题与十个方法大总结
海量数据处理:十道面试题与十个海量数据处理方法总结作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。出处:http://blog.csdn.net/v_JULY_v。 第一部分、十道海量数据处理面试题1、海量日志数据转载 2014-04-01 22:26:32 · 3671 阅读 · 1 评论 -
mapreduce简单的gzip压缩
MapReduce使用简单的gzip格式进行文件的压缩package example;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;原创 2014-04-02 22:05:59 · 2983 阅读 · 0 评论 -
Hadoop在MapReduce中使用压缩详解
Hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,Hadoop能够自动为我们将压缩的文件解压,而不用我们去关心。AD:51CTO学院:IT精品课程在线看!Hadoop对于压缩文件的支持如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压。转载 2014-04-02 21:32:41 · 1850 阅读 · 0 评论 -
Mapreduce求TopK最大值
package suanfa;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;im原创 2014-04-06 20:55:34 · 3797 阅读 · 2 评论 -
Error: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-965200530-172.21.
错误很明显无法获得BP-965200530-172.21.3.170-1400216975207:blk_-1762002543329523353_80392 file=/user/bdsdata/.staging/job_1406698610363_0394/job.split的数据,然后节点监控页面发现datanode已经死了两个(本来有三个datanode两个namenode),然后看了原创 2014-12-09 15:55:16 · 6489 阅读 · 0 评论 -
hadoop启动异常:UnregisteredDatanodeException
启动Hadoop集群时,发现三台DataNode只启动成功了两台,未启动成功的那一台日志中出现了下列异常: 2012-09-07 23:58:51,240 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: DataNode is shutting down: org.apache.hadoop.ipc.RemoteException:原创 2014-12-09 15:53:03 · 2548 阅读 · 0 评论 -
hadoop2.5.1集群部署(完全分布式)
hadoop2.5完全分布式环境介绍:环境介绍:3台虚拟机安装centos6.464位、jdk1.7 64位、hadoop2.5.1 64位 主机配置规划1. 修改主机名和/etc/hosts文件1)修改主机名(非必要)vi /etc/sysconfig/network HOSTNAME=m1重启后生效。2)/etc/hosts是ip地址和其原创 2014-12-09 09:46:26 · 8233 阅读 · 0 评论 -
hadoop-2.5.1 源码编译
hadoop-2.5.1编译步骤(只需一个节点即可)环境:系统 CentOS 6.4 64 位 m1 172.103.55.12软件: jdk1.7、hadoop- 2.5.1- src.tar.gz、maven3.2.3、protobuf2.5.0注:需要连接互联网 1. 安装配原创 2014-12-09 16:56:32 · 8421 阅读 · 2 评论 -
hadoop设置ssh免密码登录
对于需要远程管理其它机器,一般使用远程桌面或者telnet。linux一般只能是telnet。但是telnet的缺点是通信不加密,存在不安全因素,只适合内网访问。为解决这个问题,推出了通信加密通信协议,即SSH(Secure Shell)。使用非对称加密方式,传输内容使用rsa或者dsa加密,可以避免网络窃听。hadoop的进程之间同信使用ssh方式,需要每次都要输入密码。为了实现自动化操原创 2014-02-21 21:59:19 · 26771 阅读 · 5 评论 -
Hadoop配置完善
Hadoop日志详解日志分析•.log为log4j详细日志,.out为标准输出(一般查看.log)•Userlogs为程序的日志信息,其它(.out,.log)为进程启动日志信息JobHistory配置•启动yarn下的jobhistory进程查看任务日志(mr-jobhistory-daemon.sh start historyserv原创 2017-03-12 19:30:03 · 511 阅读 · 0 评论 -
联通研究院处长王志军:Hadoop在电信业大数据的应用
联通研究院处长王志军:Hadoop在电信业大数据的应用摘要:联通研究院处长王志军发表《Hadoop在电信业大数据的应用》主题演讲,据他介绍,联通第一次采用了开源技术,在这之前在电信行业当中比较少见,使用Hadoop、HBase等技术。6月29日,第七届“开源中国 开源世界”高峰论坛在北京唯实国际文化交流中心召开。本届论坛主题为“开源融合创新移动互联未来”,聚焦开源与移动转载 2014-03-17 15:50:14 · 4568 阅读 · 0 评论 -
数据挖掘常用的方法(分类,回归、聚类、关联规则)
原文出自:http://www.vsharing.com/k//2013-10/690272.html在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘转载 2014-03-15 17:19:57 · 50632 阅读 · 0 评论 -
windows下搭建hadoop+eclipse开发环境
我的环境:windows8+hadoop1.1.2+eclipse4.3(linux为centerOS6.4)实现步骤下载eclipse、hadoop,提取hadoop中的hadoop-eclipse-plugin-1.1.2.jar将其拷贝到eclipse中的plugins中(注 :如果没有找到hadoop-eclipse-plugin-1.1.2.jar,可以到网上下载对应的版原创 2014-02-25 09:08:06 · 32132 阅读 · 4 评论 -
Unsupported major.minor version 51.0(jdk版本错误)
最近在进行hadoop的开发时遇到了一个问题,现将此记录下来!前一阵子搭建了hadoop的开发环境(win8+eclipse4.3+hadoop1.1.2+centerOS6.4),最近在eclipse下创建了一个实例,将其打包为jar文件后发布到linux环境下执行时报了一个错:不难看出是版本问题,即:eclipse下的项目的jdk环境和liux下的jdk环境不一致造原创 2014-02-25 10:37:20 · 8648 阅读 · 1 评论 -
java.util.zip.ZipException: error in opening zip file
今天在eclipse上新建了一个java项目,将其打包为jar文件,上传到linux上进行运行时出错了;错误内容为:java.util.zip.ZipException: error in opening zip file.....后来才知道原来是在导出 jar环节出了问题,在Export导出项目时去掉被选中的.CLASSPATH。呵呵 去掉之后在linux原创 2014-02-25 16:44:05 · 23107 阅读 · 0 评论 -
windows上运行MapReduce出错(Failed to set permissions of path)
今天在windows上搭建了hadoop1.1.2+eclipse的开发环境,在Run on hadoop时,控制台报了一个异常;异常信息大致为: ERRORsecurity.UserGroupInformation: PriviledgedActionException as:lenovocause:java.io.IOException: Failed to s原创 2014-02-25 16:52:40 · 5265 阅读 · 0 评论 -
windows下通过eclipse进行远程执行出错:Permission denied:
前一阵子搭建好了windows下的hadoop开发环境,今天进行远程执行时报了一个异常:14/02/26 10:33:52 WARNmapred.LocalJobRunner: job_local_0001org.apache.hadoop.security.AccessControlException:org.apache.hadoop.security.AccessContro原创 2014-02-26 10:48:44 · 6678 阅读 · 0 评论 -
hadoop实例分析之WordCount单词统计分析
WordCount单词统计分析 最近在网上看了hadoop相关资料以及单词计数的一个实例,结合网上的资料和自己的看法简要分析一下执行过程。MyMapper.javapackage com.mpred; import java.io.IOException; import org.apache.hadoop.io.IntWritable;imp原创 2014-02-26 11:58:08 · 7938 阅读 · 0 评论 -
class com.sun.jersey.core.impl.provider.entity.XMLJAXBElementProvider$Text
运行mapreduce遇到的奇芭的错:java.lang.ClassCastException: classcom.sun.jersey.core.impl.provider.entity.XMLJAXBElementProvider$Text atjava.lang.Class.asSubclass(Unknown Source) atorg.apache.hadoo原创 2014-02-26 14:43:00 · 8104 阅读 · 6 评论 -
org.apache.hadoop.hdfs.server.namenode.SafeModeException
原文出自:http://hi.baidu.com/zhy65991/item/8428013fcf459e342f0f8158safemode模式NameNode在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例(1-dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。dfs.safemo转载 2014-03-03 21:24:56 · 2186 阅读 · 0 评论 -
mapreduce实现计数时未执行reduce方法(未实现统计功能)
今天写了一个mpareduce的计数例子(统计每个单词出现的个数),哪知没有实现统计功能!纠结了半天才发现原来是reduce函数中的Context前面有一串包名,把它去掉后再重新执行就OK了。。。protected void reduce(Text key, Iterable values,org.apache.hadoop.mapreduce.Reducer.Context contex原创 2014-03-04 19:02:10 · 3091 阅读 · 0 评论 -
eclipse打包jar发布到linux下运行出错(java.lang.ClassNotFoundException: cmd.WordCount$MyMapper )
今天在eclipse写一个mapreduce计数例子,打包成jar放到linux下通过hadoop命令运行时出现如下错误:小小的纠结了一下,检查了一下代码原来是漏写了一个打包的设置://打成jar需要指定的执行类job.setJarByClass(WordCount.class);重新打包执行,一切oK!原创 2014-03-05 18:03:32 · 7049 阅读 · 0 评论 -
FAILED: Error in metadata: MetaException(message:Got exception: java.net.ConnectException
今天在安装配置玩hive后,进入了hive的命令行执行show databases时抛出一下错误:FAILED: Error in metadata: MetaException(message:Got exception: java.net.ConnectException Call to hadoop0/192.168.0.10:9000 failed on connection exce原创 2014-03-11 12:51:19 · 6516 阅读 · 3 评论 -
mapreduce的规约(Combiner)
听了超哥的一席课后逐渐明白了Combiner,记录一下自己的理解!(thanks 超哥)首先贴上两段代码:code1:package combine;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hado原创 2014-03-06 14:01:08 · 4817 阅读 · 0 评论 -
mapreduce之partition分区
听了超哥的一席课后逐渐明白了partition,记录一下自己的理解!(thanks 超哥)package partition;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSyst原创 2014-03-06 15:42:10 · 11525 阅读 · 2 评论 -
Could not establish connection to hadoop0:10000/default: Connection refused: connect
今天在完成Hive的安装配置后,通过java客户端连接Hive进行操作时抛了一个异常:Exception in thread "main" java.sql.SQLException: Could not establish connection to hadoop0:10000/default: java.net.ConnectException: Connection refuse原创 2014-03-11 17:41:58 · 7923 阅读 · 1 评论 -
mapreduce之自定义排序算法
有人说mapreduce中不是有一个自动排序和分组(按key排序和分组)的嘛,我们为什么还需要自己写排序算法呢?因为很多时候这种自动排序无法满足我们的需求,所以我们需要自定义排序算法!需求1:#首先按照第一列升序排列,当第一列相同时,第二列升序排列3 33 23 12 22 11 1----结果---------------1 12 12 2原创 2014-03-07 15:33:45 · 12595 阅读 · 3 评论 -
ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times
今天在配置好hbase分布环境后,进行shell操作,在创建表时出现了如下错误:ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times进入hbase目录下的logs目录中查看MASTAR的日志信息发现了问题:2014-03-08 07:14:17,955 INFO org.apache.ha原创 2014-03-08 23:27:02 · 7176 阅读 · 1 评论 -
Hadoop入门(Hadoop2.7.2源码编译与伪分布安装)
Hadoop概述— Hadoop简介•什么是Hadoop 一个开源、高可靠、可扩展 的分布式计算框架• 解决的问题 海量数据的存储(HDFS) 海量数据的分析(MapReduce) 分布式资源调度(Yarn)• 产生背景 受Google三篇论文的启发(GFS、MapReduce、BigTable)• 扩容能力 能可靠地存储和处理千兆字节(PB)数据。• 成本低 可以通过普通原创 2017-03-12 19:35:45 · 1476 阅读 · 0 评论