Hadoop
qwurey
学生
展开
-
Hive的JDBC接口实现(Eclipse环境配置)
实验环境:3个节点(OS:ubuntu12.04):master,node1,node2hadoop版本:1.0.3hive版本:0.11.01.首先是在集群上安装Hive:(1)下载hive安装包到本地(我下载到了master节点上,为了减轻master节点的压力,可以下载到任何一台节点上进行配置),解压(解压到哪里无所谓),因为hive本质是建立在hadoop上的,而每个节原创 2013-12-26 21:25:00 · 18607 阅读 · 1 评论 -
MapReduce倒排索引简单实现
倒排索引:原创 2014-11-10 15:53:36 · 3557 阅读 · 0 评论 -
编译hadoop2.2.0的eclipse插件流程总结
下载插件代码:http://pan.baidu.com/s/1kT0xz3T原创 2014-10-19 10:50:50 · 904 阅读 · 0 评论 -
报错:java.lang.OutOfMemoryError: Java heap space
遇到报错:java.lang.OutOfMemoryError: Java heap space的问题原创 2014-12-31 15:14:21 · 1239 阅读 · 0 评论 -
对MapReduce过程的理解
对自己近一个月来学习map、reduce过程做些总结,以备后期查看。(基于hadoop1.x)首先是官方的经典过程图:这个过程中我们会依次接触六大类:InputFormat,Map,Combine,Partition,Reduce,OutputFormat1. InputFormat:我们先来看一下InputFormat的抽象类需要继承类实现的方法: @Override原创 2014-03-18 09:59:00 · 8243 阅读 · 1 评论 -
WebHDFS vs HttpFS GateWay
基于hadoop2.7.1版本一、简介1、 WebHDFS官方简介:IntroductionThe HTTP REST API supports the complete FileSystem/FileContext interface for HDFS.2、HttpFS GateWay官方简介:HttpFS is a server that provides a REST HTTP gateway原创 2015-10-25 11:14:32 · 3853 阅读 · 0 评论 -
Hadoop发行版的比较与选择
本文转自:《Hadoop发行版的比较与选择》Hadoop的发行版除了社区的Apache Hadoop外,Cloudera,Hortonworks,MapR,EMC,IBM,Intel,华为等都提供了自己的商业版本。商业版主要是提供了专业的技术支持,这对一些大型企业尤其重要。每个发行版都有自己的一些特点,本文就各个发行版做简单介绍。 2008 年成立的 Cloudera 是转载 2015-10-25 11:16:25 · 1997 阅读 · 0 评论 -
Hadoop默认端口应用一览
本文转自:《Hadoop默认端口应用一览》Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper。转载 2015-10-25 20:04:45 · 19842 阅读 · 0 评论 -
Hadoop服务层授权控制
本文转载自过往记忆(http://www.iteblog.com/)Hadoop在服务层进行了授权(Service Level Authorization)控制,这是一种机制可以保证客户和Hadoop特定的服务进行链接,比如说我们可以控制哪个用户/哪些组可以提交Mapreduce任务。所有的这些配置可以在$HADOOP_CONF_DIR/hadoop-policy.转载 2015-10-26 15:30:16 · 2196 阅读 · 0 评论 -
配置hadoop2.4.0记录
1. 配置 hadoop用户:add group原创 2014-09-09 20:49:20 · 1775 阅读 · 0 评论 -
Hadoop InputFormat记录
InputFormat:主要用于描述书、原创 2014-07-29 21:40:24 · 1035 阅读 · 0 评论 -
Hadoop简单实现全排序
做毕设用到Hadoop的全排序处理大数据,接触Hadoop已经2个月了,进展缓慢,深刻认识到进入到一个好的团队、共同研究是多么的重要,以此纪念我的大四一个人的毕设。废话不多说,我实现了整形和字符串型的全排序。基础知识:1. TeraSort思想:关于terasort的文章很多,我没有找到那篇经典的原创。大体思想可以参看:http://hi.baidu.com/dt_zhangwei/i原创 2014-03-14 13:27:38 · 17842 阅读 · 9 评论 -
人大云计算检测系统——1000-1002题
初接触hadoop,发现这个OJ是练习写map/reduce程序的好地方:http://cloudcomputing.ruc.edu.cn/下面是自己拍的一些题的答案,其中很多都是可以在hadoop实战这本书上找到的。第1000题:import java.io.IOException;import java.util.StringTokenizer;import org.ap原创 2014-02-22 23:33:37 · 1695 阅读 · 1 评论 -
使用Eclipse开发HBase应用程序
配置项目环境:1.当第三方应用访问HBase时,需要首先访问ZooKeeper(由$HBASE_HOME/conf/hbase-site.xml设置),因此需要通过classpath来指定HBase配置文件的位置(即$HBASE_HOME/conf的位置)2. 包含相应的Jar包:3.代码简单实现HBase的api:package use.hbase.api;i原创 2014-02-26 16:12:36 · 8463 阅读 · 1 评论 -
MapReduce中实现对HBase中表的操作二
1.从hbase中读取数据2. 写map\reduce过程3. 输出数据到hdfs中首先要了解我们需要用TableMapper.class读取hbase中的数据到map\reduce任务中:注意TableMapper的输出key、value是Writeable,输入key、value是固定的!而且我们必须在程序中指定map的输出key、value类型。 job.set原创 2014-02-26 21:28:20 · 5019 阅读 · 1 评论 -
人大云计算检测系统——1003题
第1003题:import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import or原创 2014-02-23 17:16:02 · 1581 阅读 · 1 评论 -
MapReduce中实现对HBase中表的操作一
1. 上传数据到hdfs中2. 写Map\Reduce过程3. 输出结果到hbase中Tips:1. 因为map是从hdfs中取数据,因此没有太大变化;而reduce需要输出结果到hbase中,所以这里继承了TableReduce,这里没有valueout,但是规定TableReduce的valueout必须是Put或者Delete实例。2. 已经确定了输入输出路径,所以不用在原创 2014-02-26 19:30:35 · 13325 阅读 · 1 评论 -
关于map task、reduce task和hdfs块大小的理解
map task的数量由输入文件总大小和分片大小确定;reduce task的数量需要手动设定,如果没有设定,默认是1,因此要想有效的利用分布式,可以通过设定reduce的数量进行优化。比如:可以在程序中通过conf.setNumReduceTasks(3)设定。hdfs的数据块默认是64M,若一个文件大于64M,通过将大文件分解得到若干个数据块;若一个文件小于64M,则按它的原创 2014-02-27 20:34:43 · 7081 阅读 · 3 评论 -
重新格式化HDFS的方法
重新格式化hdfs系统的方法:(1)查看hdfs-ste.xml: dfs.name.dir /home/hadoop/hdfs/name namenode上存储hdfs名字空间元数据 dfs.data.dir /home/hadoop/hdsf/data datanode上数据块的物理存储位置 将 dfs.name.dir所指定的目录删除、dfs原创 2014-03-19 17:02:19 · 31689 阅读 · 2 评论 -
hadoop的配置文件记录
记录自己试验过程中调优hadoop配置的日志。1. 遇到个问题:datanode硬盘空间不够大,想让hadoop定期删除无用的数据块。 dfs.blockreport.intervalMsec 3600000 Determines block reporting interval in milliseconds. 在hdfs-default.xml中默认原创 2014-03-23 21:27:27 · 1174 阅读 · 0 评论 -
Java&Python操作WebHDFS
有用到通过java client或者python client操作HDFS,记录一下简单的代码片段。WebHDFS的认证方式WebHDFS的认证方式有三种:AuthenticationWhen security is off, the authenticated user is the username specified in the user.name query parameter. If t原创 2016-05-18 22:16:21 · 3824 阅读 · 0 评论