大数据
serven-star
这个作者很懒,什么都没留下…
展开
-
简单的MapReduce程序(Hadoop2.2.0)
继上篇文章: 配置Hadoop开发环境(Eclipse) 我们以简化版的气温统计为例,演示如何开发一个MapReduce程序。 Eclipse中新建一个MapReduce项目,命名为MaxTemperature。 源代码文件 新建以下3个类文件,代码依次如下: MaxTemperatureDriver.java package com.oss.maxtemperature;原创 2013-12-18 18:05:46 · 18152 阅读 · 14 评论 -
Hadoop集群设置
Hadoop集群配置部分参数: 设置dfs.name.dir 时,通过逗号分隔多个值,可以使namenode将元数据存储到多个副本,以便namenode出错时恢复。 dfs.data.dir也可设置多个目录,但是其目的不是为了冗余容错,而是可以循环写入,提高性能。 fs.checkpoint.dir也可设置多个目录,以保存检查点。和namenode一样,其支持冗余备份。 以上设置的目录,默原创 2014-01-09 22:17:43 · 6877 阅读 · 0 评论 -
Hadoop 2.2.0词频统计(实现自定义的Partitioner和Combiner)
我们以简单的词频统计为例,逐个讲解Map,Reduce,Partition,Combiner的概念和用法。 本例基于Hadoop 2.2.0实测通过。原创 2014-01-04 22:31:02 · 11854 阅读 · 9 评论 -
Pig安装及简单实例
前面讲到了如何用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式。另一方面,编写MapReduce程序,发布及运行作业都将是一个比较耗时的事情。 Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身,而不是纠结于数据的格式转换以及MapReduce程序编写。原创 2014-01-10 22:36:00 · 18247 阅读 · 1 评论 -
Pig基础
Pig Latin常用命令,基本语法,数据类型,模式定义。原创 2014-01-13 15:45:13 · 11246 阅读 · 0 评论 -
Hadoop2.2.0 单节点安装
单机上安装Hadoop 2.2.0原创 2013-11-29 11:07:04 · 5291 阅读 · 1 评论