Hadoop
zhu_9527
性格开朗,没事写写代码。
展开
-
Hadoop2.2.0版本多节点集群安装及测试
摘要:本文记录了Hadoop2.2.0版本多节点集群安装过程,并做了基本配置,启动运行和测试了一个单词统计例子。 环境说明:基于Windows下的VMware Player4.0.3中的ubuntu12.04-64server安装,先把基础软件安装到一个虚拟机中,然后拷贝两份再配置下即可。三台机器的分工如下:Hadoop1(Master): NameNode/ResouceMana转载 2013-12-17 11:49:39 · 767 阅读 · 3 评论 -
MapReduce学习笔记
MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MapReduce由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算。这两个函数的形参是key、value对,表示函数的输入信息。MR执行流程JobTracker 相当于项目经理负责接收用户请求和具体分配转载 2014-03-15 20:39:18 · 825 阅读 · 0 评论 -
hadoop下启动异常之一
java.lang.IllegalArgumentException: Does not contain a valid host:port authority: master:8031 (configuration property 'yarn.resourcemanager.resource-tracker.address') at org.apache.hadoop.net.NetUti原创 2014-03-20 21:07:08 · 2951 阅读 · 0 评论 -
hadoop2.2的eclipse插件编译
1、在网上下载hadoop2x-eclipse-plugin-master的插件包:https://github.com/winghc/hadoop2x-eclipse-plugin(用unzip 解压).hadoop1的版本自带这个插件包,而hadoop2没有需要自己下载。2、输入ant -version测试可以正常工作。没有装的话装下sudo apt-get install ant原创 2014-03-20 22:14:12 · 813 阅读 · 0 评论 -
hadoop1HDFS的读写过程源码解析
一、文件的打开1.1、客户端HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为:public FSDataInputStream open(Path f, int bufferSize) throws IOException { return new DFSClient.DFSData转载 2014-04-01 15:19:49 · 919 阅读 · 0 评论 -
Hadoop-2.2.0集群安装配置实践
Hadoop 2.x和1.x已经大不相同了,应该说对于存储计算都更加通用了。Hadoop 2.x实现了用来管理集群资源的YARN框架,可以面向任何需要使用基于HDFS存储来计算的需要,当然MapReduce现在已经作为外围的插件式的计算框架,你可以根据需要开发或者选择合适的计算框架。目前,貌似对MapReduce支持还是比较好的,毕竟MapReduce框架已经还算成熟。其他一些基于YARN框架的标转载 2014-03-21 15:26:06 · 1179 阅读 · 0 评论 -
使用Maven将Hadoop2.2.0源码编译成Eclipse项目
1. 下载Hadoop2.2.0源码包 http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.2.0/hadoop-2.2.0-src.tar.gz 2. 解压缩到Eclipse的workspace中。这里最好解压缩到workspace中,编译完成后直接导入就好了,不用移动,移动的话容易造成依赖关系的确实,我比较懒,所以就放在wor转载 2014-03-21 22:20:14 · 1024 阅读 · 0 评论 -
基于Hadoop2.2.0版本分布式云盘的设计与实现
基于Hadoop2.2.0版本分布式云盘的设计与实现原创 2014-04-25 22:34:59 · 12474 阅读 · 39 评论 -
混合推荐总结
混合推荐系统是推荐系统的另一个研究热点,它是指将多种推荐技术进行混合相互弥补缺点,从而可以获得更好的推荐效果。最常见的是将协同过滤技术和其他技术相结合,克服cold start的问题。(1)加权型就是将多种推荐技术的计算结果加权混合产生推荐。最简单的方式是线性混合,首先将协同过滤的推荐结果和基于内容的推荐结果赋予相同的权重值,然后比较用户对项的评价与系统的预测是否相符,然后转载 2014-08-27 11:15:08 · 2098 阅读 · 0 评论