![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
一步一步学习hadoop2.2
zhuyu4839
这个作者很懒,什么都没留下…
展开
-
hadoop's ecosystem
一. Hadoop早期生态系统的模块: 1. HDFS --> Hadoop Distribted File System: Hadoop的文件系统,是一个能在多个cluster()上面对海量数据操作,并且数据只需写一次. 2. MapReduce(MP): Hadoop运行核心,一种分布式(平行数据处理)的编程模式,MP将任务分段处理,被分配了Map作业的worker,开始读取对应分片的输原创 2014-03-11 22:06:47 · 769 阅读 · 0 评论 -
hadoop HDFS杂记
1. HDFS使用ChecksumFileSystem或它的子类实例时,文件交换使用crc校验码; 2.HDFS支持压缩格式:deflate gzip bzip2 lzo snappy格式: java 访问: public static void main(String[] args) throws Exception { String codecClassname = args[0];原创 2014-03-23 00:31:17 · 588 阅读 · 0 评论 -
Problem accessing /nn_browsedfscontent.jsp
When run (a single node hadoop) hadoop : http://127.0.0.1:50070, it show a error in browser: HTTP ERROR 500 Problem accessing /nn_browsedfscontent.jsp. Reason: Can't browse the DFS原创 2014-03-17 23:17:34 · 1344 阅读 · 0 评论 -
hadoop hdfs2 Basic Filesystem Operations
1. create path in hadoop hdfs Configeration conf = new Configeration(); FileSystem hdfs = FileSystem.get(conf); Path path = new Path("pathName"); hdfs.create(path); hdfs.close(); 2. create p原创 2014-03-19 00:15:58 · 933 阅读 · 0 评论 -
hadoop2.2 MapReduce and yarn(二) MapReduce in MR v2 API
MapReduce 1. 首先了解MapReduce的功能:一个分布式系统(Distribute System)是用来处理大计算量的数据,即当计算量在一台计算机无法处理的情况下,就通过把整个计算过程分成很多个小的计算块,通过Master分派给分布式系统中集群的Cluster,Cluster计算完成后结果返回给Master,如此迭代;在Hadoop模型中MapReduce即为实现. MapRed原创 2014-03-29 08:13:01 · 853 阅读 · 0 评论 -
hadoop2.2 MapReduce and yarn(一)
1. MapReduce前后框架对比: 2. MapReduce主要操作对象 Driver:是一个很重要的内容,主要负责MapReduce job的初始化,它定义了job的配置 输入输出格式 使用的combiner和partitioner. Context:drivers mappers reducers...的上下文环境. InputData: InputFormat:原创 2014-03-23 01:11:36 · 620 阅读 · 0 评论 -
yarn & hadoop2.2 与 HBase with zookeeper环境集成
前面的是对hadoop整个系统的大致认识,今天就为学习hadoop搭建环境. 首先介绍为什么要使用这样的集成环境: http://img.blog.csdn.net/20140307204651015?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvemh1eXU0ODM5/font/5a6L5L2T/fontsize/400/fill/I0JBQkF原创 2014-03-17 22:09:16 · 1804 阅读 · 0 评论 -
分布式安全--YARN & HDFS2 安装和配置Kerberos
设置hadoopsecurity core-site.xml hadoop.security.authentication kerberos hadoop.security.authorization true hadoop.secur转载 2014-03-17 22:03:46 · 954 阅读 · 0 评论 -
HBase
1. HBase 环境搭建(略). 2. 高效的Hbase架构:原创 2014-03-15 03:03:01 · 708 阅读 · 0 评论 -
Hadoop ecosystem HDFS and HDFS2
1. HDFS的思想来源GFS(Google File System),是一个块结构的文件系统,用于处理海量数据处理,并且允许读取和数据本地处理. 2. HDFS允许数据读写附加删除但是不允许数据更新操作. 3. HDFS把数据分成若干块,存储在DataNode上,DataNode在本地分散的文件中存储HDFS数据块. 4. NameNode: 实质就是一个master server,用于管原创 2014-03-12 21:50:33 · 1384 阅读 · 0 评论 -
Problem accessing /nn_browsedfscontent.jsp
When run (a single node hadoop) hadoop : http://127.0.0.1:50070, it show a error in browser: HTTP ERROR 500 Problem accessing /nn_browsedfscontent.jsp. Reason: Can't browse the DFS since t原创 2014-03-07 21:13:52 · 2813 阅读 · 4 评论 -
Installing single node Hadoop 2.2.0 on Ubuntu
artic from:http://bigdatahandler.com/2013/11/02/installing-single-node-hadoop-2-2-0-on-ubuntu/ Please find the complete step by step process for installing Hadoop 2.2.0 stable version on Ubuntu a转载 2014-03-07 20:28:57 · 1234 阅读 · 0 评论 -
Hadoop Yarn 框架 Demo 变化
场景介绍:Weblogic 应用服务器日志分析 了解了 hadoop 新的 Yarn 框架的架构和思路后,我们用一个 Demo 示例来检验新 Yarn 框架下 Map-Reduce 程序的开发部署。 我们考虑如下应用场景:用户的生产系统由多台 Weblogic 应用服务器组成,每天需要每台对应用服务器的日志内容进行检查,统计其日志级别和日志模块的总数。 WebLogic 的日志范转载 2014-03-11 22:08:40 · 769 阅读 · 0 评论 -
hadoop2.2.0 单节点安装
以下两个软件是在Linux下必须安装的:ssh rsync 安装步骤: 1)将下载的Hadoop安装包放到指定的目录,比如放到您当前用户的home目录。执行以下命令解压安装包: tar xzf hadoop-2.2.0.tar.gz 2)编辑home目录下的.bashrc,添加以下项: # add for hadoop 2.2 export转载 2014-03-07 00:42:02 · 683 阅读 · 0 评论 -
MapReduce 2.0 in Apache Hadoop 0.23
This blog provides developers with architectural details of the new MapReduce design. Apache Hadoop 0.23 has major improvements over previous releases. Here are a few highlights on the MapReduce f转载 2014-03-23 18:36:43 · 830 阅读 · 0 评论