![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 61
江南浙里
我是来自丛林的一头小野猪,习惯了独来独往
展开
-
专利数据集的MR程序
利用mapreduce进行专利数据集数据计算原创 2015-02-04 16:40:36 · 816 阅读 · 0 评论 -
hadoop-2.4.0源码编译过程
hadoop2.4.0源码编译过程原创 2015-04-19 12:03:53 · 717 阅读 · 0 评论 -
hadoop2.4.0源码编译问题
用maven编译hadoop2.4.0源码原创 2015-04-19 10:59:18 · 881 阅读 · 0 评论 -
Hadoop生态系统介绍
1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。下图为hadoop的生态系统:2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是G转载 2015-04-06 16:34:30 · 577 阅读 · 0 评论 -
MapReduce简介
1.MapReduce框架简介 要设计倒排索引这个算法,那么我们首先得知道MapReduce框架中的InputFormat类,Mapper类,Partition过程,sort过程,Combine类,Reduce类的设计原理。1.1InputFormat类 InputFormat类的作用是什么呢?其实就是把输入的数据(就是你上传到hdfs的文件)切转载 2015-04-06 16:17:58 · 405 阅读 · 0 评论 -
hadoop倒排索引
1.前言 学习hadoop的童鞋,倒排索引这个算法还是挺重要的。这是以后展开工作的基础。首先,我们来认识下什么是倒拍索引: 倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的在它的服务器里找到有该关键字的文件,并根据频率和其他一些策略(如页面点击投票率)等来给你返回结果转载 2015-04-06 16:12:50 · 671 阅读 · 0 评论 -
Pig 实例:发现相似专利
因特网公司对海量数据的按需分析处理目前基本采用Map/Reduce编程模型。尽管如此,Map/Reduce也存在一些限制,它的单输入,两阶段数据流编程模式过于苛刻,对于超出该限制之外的数据分析任务,需要进行一些额外的数据转换。另外,它没有通用操作集,即使是对最通用的操作,如:projection和filtering。这些限制导致Map/Reduce代码重用性和可维护性不高,任务的分析语义不够清晰,转载 2015-02-07 13:10:08 · 712 阅读 · 0 评论 -
Pig实例:使用Pig latin来求年最高气温(测试NCDC天气数据)
如何使用Pig latin来求年最高气温?原创 2015-02-07 13:32:26 · 1154 阅读 · 0 评论 -
hadoop家族Pig和Hive有什么不同啊?
对于开发人员,直接使用Java APIs可能是乏味或容易出错的,同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了两个解决方案,使得Hadoop编程变得更加容易。 HIVE简单来讲是为传统数据库工程师服务的,可以把sql转换为MapReduce. HIVE介于Pig和传统的RDBMS之间,和Pig一样,Hive也被设计为HDFS作为存储,但是他们转载 2015-02-08 13:31:28 · 600 阅读 · 0 评论 -
专利数据集的MR程序-MultipleOutputs
利用mr程序,根据国家将专利元数据分割到多个目录,同时,将输入数据的不同列提取为不同文件的程序原创 2015-02-06 11:43:07 · 724 阅读 · 0 评论 -
Ubuntu安装Ganglia并监控Hadoop集群
Ubuntu14.04上安装 Ganglia并监控Hadoop集群原创 2015-04-27 22:11:43 · 3478 阅读 · 0 评论