Hadoop
游侠509
在知识的海洋面前,我只是一个在沙滩上玩耍的小孩子。
展开
-
Hadoop家族 路线图(转)
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风起云转载 2017-02-06 09:19:52 · 293 阅读 · 0 评论 -
MapReduce类型与格式(输入与输出)
一、输入格式(1)输入分片记录①JobClient通过指定的输入文件的格式来生成数据分片InputSplit;②一个分片不是数据本身,而是可分片数据的引用;③InputFormat接口负责生成分片;源码位置:org.apache.hadoop.mapreduce.lib.input包(新) org.apache.hadoop.mapred.lib 包(旧)转载 2017-02-06 11:30:42 · 4599 阅读 · 0 评论 -
理解Hadoop
HDFS是Hadoop的核心模块之一,围绕HDFS是什么、HDFS的设计思想和HDFS的体系结构三方面来介绍。Hadoop的设计思想受到Google公司的GFS设计思想的启示,基于一种开源的理念实现的分布式分布式文件系统。HDFS的设计基础与目标如下。1)硬件错误(Hardware Failure)是常态,因而需要数据冗余技术。2)流失数据访问(Streaming Data Acces原创 2017-02-06 11:49:55 · 270 阅读 · 0 评论 -
开源大数据利器汇总
开源大数据利器汇总类别名称官网备注查询引擎Phoenixhttps://phoenix.apache.org/Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写Kylinhttp://kylin.ioeBay开源的基于Hadoop的分布式OLAP分析引擎,旨在减少Hadoop在1原创 2017-01-16 13:04:12 · 1806 阅读 · 0 评论 -
Apache Lucene初探
首先呢,学习任何一门新的亦或是旧的开源技术,百度其中一二是最简单的办法,先了解其中的大概,思想等等。这里就贡献一个讲解很到位的ppt。已经被我转成了PDF,便于搜藏。 其次,关于第一次编程初探,建议还是查看官方资料。百度到的资料,目前Lucene已经更新到4.9版本,这个版本需要1.7以上的JDK,所以如果还用1.6甚至是1.5的小盆友,请参考低版本,由于我用的1.6,因此在使用Luc转载 2017-02-27 19:18:37 · 185 阅读 · 0 评论 -
windows启动MongoDB
windows下mongo的启动必须在cmd命令下,输入以下命令:mongod --dbpath "D:\MongoDB\Server\3.4\bin"然后,另外开启个cmd,在相应的bin目录下输入:mongo,才可以正常登录mongo。原创 2017-03-10 10:27:45 · 592 阅读 · 0 评论 -
MapReduce编程
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1: 2012-3-转载 2017-03-07 20:45:44 · 550 阅读 · 0 评论