Hadoop
xhjx2618
只是记笔记
展开
-
Hadoop RPC源码分析之Client
这里参考了文章:http://blog.csdn.net/shirdrn/article/details/4571445从Client如何向Server发送一个Call入手,先看下函数:public Writable call(Writable param, ConnectionId remoteId) throws InterruptedException, IOExcep原创 2013-01-09 22:22:26 · 485 阅读 · 0 评论 -
运行mahout0.6 hadoop版本的CF
1准备数据集这里使用了movieLen的数据集,下载地址: http://www.grouplens.org/node/73 这里选取了那个1m的数据集下载之后还要写个小程序将格式转化成csv格式的,才能在作为hadoop的输入package com.dataset.format.convert;import java.io.BufferedReader;原创 2013-03-28 14:14:11 · 606 阅读 · 0 评论 -
MapTask执行过程
Hadoop集群中分主节点master节点和slave节点,master节点监控slave节点。master和slave之间通过ssh协议进行通信。 master节点上部署有JobTracker和NameNode,当然也可以部署TaskTracker和DataNode。slave节点上部署TaskTracker和DataNode节点。JobTracker监控TaskTracke转载 2013-03-27 22:25:27 · 730 阅读 · 0 评论 -
运行hadoop的WordCount程序——编译,打包,运行
1.hadoop程序编译,奇怪,用户主目录用~来代替时会报错javac -classpath /home/hejun/app/hadoop/hadoop-core-1.0.1.jar:/home/hejun/app/hadoop/lib/commons-cli-1.2.jar -d . WordCount.java 2.打包jar -cvf wordcount.ja原创 2013-04-03 12:59:16 · 621 阅读 · 0 评论 -
ubuntu 为Apache Hadoop源码建立Eclipse项目
1.安装svn sudo apt-get install svn 2 安装 Ant 1. 到Apache官网下载最新版本的ant:http://ant.apache.org/bindownload.cgi 2. 解压下载下来的.tar.gz文件: tar -xf apache-ant-1.8.2-bin.tar.gz (可能会要求输入密码原创 2013-04-03 12:57:32 · 589 阅读 · 0 评论 -
linux下搭建hadoop集群问题备忘录
1.如何让/etc/profile文件修改后立即生效方法1:让/etc/profile文件修改后立即生效 ,可以使用如下命令:# . /etc/profile注意: . 和 /etc/profile 有空格方法2:让/etc/profile文件修改后立即生效 ,可以使用如下命令:# source /etc/profile附:Linux中sour原创 2013-04-03 12:32:50 · 601 阅读 · 0 评论 -
VMWare安装Hadoop集群
参考:http://wenku.it168.com/d_000049179.shtml1. 机器配置共有三台机器,主机名为node1,node2,node3 ip 子网掩码 网关node1 : 192.168.10.1 255.255.255.0 192,168.10.2转载 2013-04-01 22:37:02 · 810 阅读 · 0 评论 -
sequencefile处理小文件实例
本文转自:http://blog.csdn.net/liuxiaochen123/article/details/7815562WholeFileRecordReader:package com.pzoom.mr.sequence;import java.io.IOException;import org.apache.hadoop.conf.Configuration;im转载 2013-03-20 15:53:55 · 497 阅读 · 0 评论 -
Mahout之k-means算法源码分析
org.apache.mahout.clustering.syntheticcontrol.kmeans.run(Configuration conf, Path input, Path output,DistanceMeasure measure, int k, double convergenceDelta,int maxIterations),这是我们分析的起点:publ原创 2013-03-28 14:16:56 · 1268 阅读 · 1 评论 -
mahout 0.6基于Item的CF代码分析
phase1: convert items to an internal index 这步主要是将itemId转成一个int。 input:用户评分文件(这也是我们最原始的输入了),格式一般为:userId \t itemId \t score。 map:(index, itemId) reduce: (index, itemId)原创 2013-03-28 14:11:16 · 705 阅读 · 0 评论 -
hadoop中mapreduce部分执行流程
本文转自:http://www.blogjava.net/shenh062326/archive/2011/01/14/342959.html概括Hadoop包括hdfs与mapreduce两部分,在试用期期间我主要看了mapreduce部分,即hadoop执行作业的部分。mapreduce中几个主要的概念 mapreduce整体上可以分为这么几条执转载 2013-03-28 11:58:26 · 613 阅读 · 0 评论